home *** CD-ROM | disk | FTP | other *** search
/ Sprite 1984 - 1993 / Sprite 1984 - 1993.iso / admin / bugs / bugs.archive.1991 < prev    next >
Encoding:
Text File  |  1992-01-23  |  542.4 KB  |  17,398 lines

  1. Log-Number: 30568
  2. From: mendel (Mendel Rosenblum)
  3. Subject: Re: SIGHUP problems 
  4. Date: Wed, 02 Jan 91 11:18:54 PST
  5.  
  6. > Return-Path: tve
  7. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  8. >     id AA210742; Fri, 28 Dec 90 18:07:17 PST
  9. > Date: Fri, 28 Dec 90 18:07:17 PST
  10. > From: tve (Thorsten von Eicken)
  11. > Message-Id: <9012290207.AA210742@sprite.Berkeley.EDU>
  12. > To: bugs
  13. > Subject: SIGHUP problems
  14. > It seems that it is either impossible to send or to receive a SIGHUP.
  15. > Here's an example program which prints "interrupt" if it receives a SIGINT
  16. > and "hangup" if it receives a SIGHUP. Following that a little log of my
  17. > attempts to get it to print "hangup", but it always prints "interrupt".
  18. > I tried the exact same thing on sunOS and it behaves as expected.
  19.  
  20. The problem here is caused by the mapping of unix signals into sprite signals.
  21. The unix compatibility library maps SIGHUP into the sprite signal SIG_INTERRUPT.
  22. SIG_INTERRUPT is mapped back to SIGINT.  This problem will be fixed when we
  23. convert the kernel to use unix signals numbers. In the mean time, the current
  24. mapping of signals can be found in the file
  25. /sprite/src/lib/c/unixSyscall/compatSig.h
  26.  
  27.     Mendel
  28.  
  29.  
  30. Log-Number: 30569
  31. Subject: MIP C compiler info
  32. Date: Wed, 02 Jan 91 15:18:39 PST
  33. From: Mike Kupfer <kupfer>
  34.  
  35. [This is to get it into the bug log for discussion at a Monday
  36. meeting. -mdk]
  37.  
  38. ------- Forwarded Message
  39.  
  40. Date: Mon, 31 Dec 90 12:58:01 PST
  41. >From: sethg (Seth Copen Goldstein)
  42. To: root@sprite.Berkeley.EDU
  43. Subject: how do I get the man page for mips c compiler?
  44.  
  45.  
  46. ------- End of Forwarded Message
  47.  
  48.  
  49.  
  50. Log-Number: 30571
  51. Subject: Re: 'mig rup' doesn't work 
  52. Date: Wed, 02 Jan 91 20:51:38 PST
  53. From: Mike Kupfer <kupfer>
  54.  
  55. > Date: Wed, 2 Jan 91 19:24:10 PST
  56. > From: dlong@dogwood.ucsc.edu (Dean Long)
  57. > To: sprite@sprite.Berkeley.EDU
  58. > Subject: 'mig rup' doesn't work
  59. > Keywords: mig rup shell script
  60. > 'mig rup' doesn't work, because mig uses the Bourne shell to run
  61. > rup since it doesn't have an a.out header.  Maybe rup should
  62. > have '#! /sprite/cmds/csh' as the first line.  Or maybe mig should
  63. > try feeding the shell script to the user's default shell.
  64. > dl
  65.  
  66. Thanks for the bug report.
  67.  
  68. FYI, please send bug reports to "bugs@sprite.berkeley.edu", not
  69. "sprite@sprite.berkeley.edu".  The bug report script (the one that
  70. generates the report that we review every week) only looks at messages
  71. that are sent to "bugs".
  72.  
  73. thanks,
  74.  
  75. Mike Kupfer
  76.  
  77.  
  78. Log-Number: 30577
  79. Date: Thu, 3 Jan 91 20:48:33 PST
  80. From: dlong@dogwood.ucsc.edu (Dean Long)
  81. Subject: dd -bs doesn't work
  82.  
  83. When trying to copy one disk to another, the following gave me
  84. errors:
  85.  
  86. rsh mach dd if=disk0 bs=bsize | dd of=disk1 bs=bsize
  87.  
  88. while the following worked fine:
  89.  
  90. rsh mach dd if=disk0 ibs=bsize obs=bsize | dd of=disk1 ibs=bsize obs=bsize
  91.  
  92. I thought bs should set ibs and obs, i.e. the two command above should
  93. be equivalent.
  94.  
  95. dl
  96.  
  97.  
  98. Log-Number: 30579
  99. From: mendel (Mendel Rosenblum)
  100. Subject: Bug in Bit_ library routines
  101. Date: Fri, 04 Jan 91 10:48:23 PST
  102.  
  103. The library routine Bit_FindFirstClear() doesn't work correctly if the
  104. number of bits in not a multiple of 32. Rather than return (-1) for 
  105. "no bits found cleared" it returns the first cleared bit in the leftover
  106. bits in the last word.  For example:
  107.  
  108.     int *bitMapArray;
  109.  
  110.     Bit_Alloc(20, bitMapArray);
  111.     for (i = 0; i < 20; i++) {
  112.         Bit_Set(i, bitMapArray);
  113.     }
  114.     Bit_FindFirstClear(20, bitMapArray) most likely returns 20 and not -1.
  115.  
  116. Since Bit_Alloc() uses malloc() which doesn't zero the memory it returns,
  117. this same bug will sometimes hit Bit_FindFirstSet().  Do we use the Bit
  118. routines for anything important?
  119.  
  120.     Mendel
  121.  
  122.  
  123. Log-Number: 30583
  124. Date: Sun, 6 Jan 91 13:09:16 PST
  125. From: bsw!adam@uunet.UU.NET (Adam de Boor)
  126. Subject: "Time" typedef conflict between Sprite and X
  127.  
  128. Actually, the conflict with "Time" has been there since I first ported
  129. X11 to Sprite. John O's position then was there would always be
  130. conflicts like that and we couldn't go changing Sprite every time one
  131. came up. The solution he suggested (which I used) was to
  132.  
  133. #define Time SpriteTime
  134. #include <file-that-defines-sprite's-Time>
  135. #undef Time
  136.  
  137. then use "SpriteTime" where sprite's version of Time was required. One
  138. can also do it the other way (rename X's Time), of course.
  139.  
  140. Just a bit of history from an historical person...
  141.  
  142. a
  143.  
  144.  
  145. Log-Number: 30584
  146. Date: Mon, 7 Jan 91 09:06:43 PST
  147. From: ouster (John Ousterhout)
  148. Subject: Allspice crash
  149.  
  150. Allspice was dead when I came in this morning.  The message on
  151. the console was something like "MachHandleTrap:  the error was in
  152. a kernel process...." or something like that.  I used kgcore to
  153. make a core dump, which I left on Ginger in
  154. /home/ginger/raid/cores/allspice.crash.1-7
  155.  
  156.                     -John-
  157.  
  158.  
  159. Log-Number: 30585
  160. Date: Mon, 7 Jan 91 10:05:37 PST
  161. From: ouster (John Ousterhout)
  162. Subject: Another Allspice crash
  163.  
  164. Allspice crashed again about 45 minutes after the first reboot.
  165. The message was "MachPageFault: page fault in kernel process: pc = 0x8".
  166. I made another core dump, in /home/ginger/raid/cores/allspice.crash.1-7b.
  167.  
  168. Two crashes in a row gives me a bad feeling (why not 3 or 4?).  Can
  169. someone take a look at these core dumps ASAP to make sure that there isn't
  170. a persistent problem that's going to cause continuous crashes every
  171. 45 minutes?
  172.                     -John-
  173.  
  174.  
  175. Log-Number: 30586
  176. Date: Mon, 7 Jan 91 10:11:50 PST
  177. From: ouster (John Ousterhout)
  178. Subject: Bad magic number in core files?
  179.  
  180. I tried to run Kgdb on the 1.-7b core file generated today, but I
  181. got the following message:
  182.  
  183. "/home/ginger/raid/cores/allspice.crash.1-7b" does not appear to be a core dump file (magic 0xf6006020, expected 0x80456)
  184.  
  185. The exact sequence of commands I used was:
  186.  
  187. cd /home/ginger/sprite/kernels
  188. Gdb sun4.1.079
  189. core /home/ginger/raid/cores/allspice.crash.1-7b
  190.  
  191.  
  192. Log-Number: 30587
  193. From: mendel (Mendel Rosenblum)
  194. Subject: Re: Bad magic number in core files? 
  195. Date: Mon, 07 Jan 91 12:06:47 PST
  196.  
  197.  
  198. > I tried to run Kgdb on the 1.-7b core file generated today, but I
  199. > got the following message:
  200. > "/home/ginger/raid/cores/allspice.crash.1-7b" does not appear to be a
  201. core dump file (magic 0xf6006020, expected 0x80456)
  202. > The exact sequence of commands I used was:
  203. > cd /home/ginger/sprite/kernels
  204. > Gdb sun4.1.079
  205. > core /home/ginger/raid/cores/allspice.crash.1-7b
  206.  
  207. The problem here is that I haven't gotten kgdb.sun4.new to compile under Unix yet.  
  208. I was able to use these core files by using kgdb.sun4.new on Sprite.  
  209.  
  210.     Mendel
  211.  
  212.  
  213. Log-Number: 30588
  214. From: mendel (Mendel Rosenblum)
  215. Subject: Re: Another Allspice crash 
  216. Date: Mon, 07 Jan 91 12:52:19 PST
  217.  
  218.  
  219. > Allspice crashed again about 45 minutes after the first reboot.
  220. > The message was "MachPageFault: page fault in kernel process: pc = 0x8".
  221. > I made another core dump, in /home/ginger/raid/cores/allspice.crash.1-7b.
  222. > Two crashes in a row gives me a bad feeling (why not 3 or 4?).  Can
  223. > someone take a look at these core dumps ASAP to make sure that there isn't
  224. > a persistent problem that's going to cause continuous crashes every
  225. > 45 minutes?
  226. >                     -John-
  227.  
  228. The crash was caused by a poison packet from a ds5000 (loiter).  The mousetrap
  229. that was added to catch the problem only checked for a bogus value less than
  230. zero. The bogus value this time was 85, a value much greater than the number 
  231. of elements in the array being indexed.  
  232.  
  233. Anyway, these mousetraps won't catch the problem because it appears to be
  234. in the rpc or net modules.  The problem is that the RPC doesn't contain any 
  235. parameter data (rpcHdr->paramSize == 0). Since the Reopen RPC stub doesn't
  236. check this it ends up using garbage from previous RPC as the arguments
  237. to the reopen procedures. The header from the RPC looks like:
  238.  
  239. $16 = {
  240.   version = 252575747, 
  241.   flags = 532, 
  242.   clientID = 83, 
  243.   serverID = 14, 
  244.   channel = 3, 
  245.   serverHint = 6, 
  246.   bootID = 663232769, 
  247.   ID = 42063, 
  248.   delay = 500, 
  249.   numFrags = 0, 
  250.   fragMask = 0, 
  251.   command = 32, 
  252.   paramSize = 0, 
  253.   dataSize = 0, 
  254.   paramOffset = 0, 
  255.   dataOffset = 0
  256. }
  257.  
  258. Either the paramSize or the command is incorrect.  A better mousetrap for allspice
  259. should be to check the paramSize in the RPC stubs for Fsio_Reopen.
  260.  
  261.  
  262.     Mendel
  263.  
  264.  
  265. Log-Number: 30589
  266. Date: Mon, 7 Jan 91 18:02:32 PST
  267. From: shirriff (Ken Shirriff)
  268. Subject: CC man page
  269.  
  270. Where is the cc man page defined?  I can't find cc.man anywhere in the
  271. source tree, but only in /sprite/man/cmds/cc.man .  Shouldn't this be
  272. in /sprite/src/cmds/cc?
  273.  
  274. Ken
  275.  
  276.  
  277. Log-Number: 30590
  278. Subject: allspice crash, busy block problem
  279. Date: Tue, 08 Jan 91 12:59:04 PST
  280. From: Mike Kupfer <kupfer>
  281.  
  282. Allspice crashed with a level 15 interrupt shortly before noon.  
  283.  
  284. It died before I could reboot it to fix a problem that had wedged
  285. Emacs.  This other problem was that a buffer had been marked as "busy
  286. waiting for I/O to complete" while there was apparently nobody
  287. actually doing I/O on that buffer.
  288.  
  289. mike
  290.  
  291.  
  292. Log-Number: 30591
  293. Date: Tue, 8 Jan 91 13:16:05 PST
  294. From: Darrell Long <darrell@sequoia.ucsc.edu>
  295. Subject: "more" and NFS
  296.  
  297.  
  298. I'll send more details as they become apparent, but using 1.079 on a Sun 4c,
  299. "more /nfs/file" loses the first few (about 80) characters when run on a
  300. client, but works on the server.  Non-NFS files are OK.  Other programs such
  301. as "vi" and "head" are also OK.  "mig more /nfs/file" is also OK.
  302.  
  303. DL
  304.  
  305.  
  306. Log-Number: 30592
  307. Subject: more failed compilations
  308. Date: Tue, 08 Jan 91 13:27:55 PST
  309. From: Mike Kupfer <kupfer>
  310.  
  311. I can't compile netroute or rpchist.  Anyone know what happened?
  312.  
  313. mike
  314. --
  315. (netroute)
  316. cc  -g -O -msun4 -Dsprite -Dsun4  -I. -Isun4.md -c netroute.c -o sun4.md/netroute.o
  317. netroute.c: In function main:
  318. netroute.c:150: `NET_ROUTE_ETHER' undeclared (first use this function)
  319. netroute.c:150: (Each undeclared identifier is reported only once
  320. netroute.c:150: for each function it appears in.)
  321. netroute.c:171: `NET_ROUTE_INET' undeclared (first use this function)
  322. netroute.c:210: `NetInetRoute' undeclared (first use this function)
  323. netroute.c:210: parse error before `inetRoute'
  324. netroute.c:226: `inetRoute' undeclared (first use this function)
  325. netroute.c:256: parse error before `inetRoute'
  326. netroute.c:347: parse error before `inetRoute'
  327.  
  328. (rpchist)
  329. cc  -g -O -msun4 -Dsprite -Dsun4  -I. -Isun4.md -c rpchist.c -o sun4.md/rpchist.o
  330. rpchist.c: In function PrintCommand:
  331. rpchist.c:393: `RPC_PROC_MIG_INIT' undeclared (first use this function)
  332. rpchist.c:393: (Each undeclared identifier is reported only once
  333. rpchist.c:393: for each function it appears in.)
  334. rpchist.c:396: `RPC_PROC_MIG_INFO' undeclared (first use this function)
  335. rpchist.c:441: `RPC_FS_DEV_REOPEN' undeclared (first use this function)
  336.  
  337.  
  338. Log-Number: 30593
  339. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  340. Date: Tue, 8 Jan 1991 13:36:10 PST
  341. Subject: Re: more failed compilations
  342.  
  343.  
  344. Netroute is an obsolete program that has been replaced by netroute.new.
  345. Netroute can go away (and netroute.new renamed) as soon as any
  346. kernels older than 1.078 are gone.  Is there any pressing need for
  347. it to be recompiled?
  348.  
  349. John
  350.  
  351.  
  352. Log-Number: 30595
  353. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  354. Date: Tue, 8 Jan 1991 16:39:14 PST
  355. Subject: lseek fixed
  356.  
  357. I fixed a bug that caused lseek to not work for pseudo-filesystems.  This
  358. caused Bob problems with msgs, and Darrell problems with more. 
  359. The problem should go away in the next kernel.
  360.  
  361. John
  362.  
  363.  
  364. Log-Number: 30599
  365. Subject: cpp appends space in .Xdefaults?
  366. Date: Wed, 09 Jan 91 11:42:55 PST
  367. From: Mike Kupfer <kupfer>
  368.  
  369.  
  370. When I was at Olivetti I used cpp to define my default font and window
  371. border width (because I had two different displays, one at 75 dpi and
  372. one at 102 dpi).  When I got to Sprite, I had to hand-copy all the
  373. font definitions because somebody (cpp?) was appending a blank to the
  374. font specifications, which was confusing Emacs.  It turns out that the
  375. problem is not limited to strings--I had problems running JO's Tk demo
  376. because the BorderWidth was registered as "2 " instead of 2.
  377.  
  378. mike
  379. --
  380. (begin test case)
  381. #define STD_FONT *courier-medium-r-normal--*-120*
  382.  
  383. #ifdef USE_MACRO
  384.  
  385. emacs*font: STD_FONT
  386.  
  387. #else
  388.  
  389. emacs*font: *courier-medium-r-normal--*-120*
  390.  
  391. #endif
  392. (end test case)
  393.  
  394. Here's a script that demonstrates the problem.
  395.  
  396. (begin script)
  397. sage% xrdb -query | grep emacs
  398. sage% xrdb -load Xfoo
  399. sage% xrdb -query | grep emacs
  400. emacs*font:    *courier-medium-r-normal--*-120*
  401. sage% emacs
  402. sage% xrdb -load Xfoo -DUSE_MACRO
  403. sage% xrdb -query | grep emacs
  404. emacs*font:    *courier-medium-r-normal--*-120* 
  405. sage% emacs
  406. emacs: X server unable to find requested font `*courier-medium-r-normal--*-120* '.
  407. sage% 
  408. (end script)
  409.  
  410.  
  411. Log-Number: 30600
  412. Date: Wed, 9 Jan 91 11:55:35 PST
  413. From: shirriff (Ken Shirriff)
  414. Subject: Re: cpp appends space in .Xdefaults?
  415.  
  416. On the decstation, cc uses /usr/lib/cpp1.31 (Ultrix), which works correctly.
  417. (works correctly == no extra space)
  418. It's only the GCC cpp which doesn't work correctly.
  419. If you give GCC cpp the -traditional flag, it works correctly.
  420.  
  421. So if we use cpp -traditional for Xdefaults, etc. then everything should
  422. be ok.
  423.  
  424. Ken
  425.  
  426.  
  427. Log-Number: 30601
  428. Date: Thu, 10 Jan 91 10:05:22 PST
  429. From: tve (Thorsten von Eicken)
  430. Subject: processes in th debugger on assault
  431.  
  432. PID   STATE   TIME COMMAND
  433. 3190c DEBUG   1:54 nfsmount ginger:/var/spool/msgs /sprite/spool/msgs 
  434. 21924 DEBUG   0:02 /sprite/daemons/portmap 
  435. 11956 DEBUG   0:00 send-mail -i -m rothman@chowder 
  436.  
  437.  
  438. Log-Number: 30602
  439. From: mendel (Mendel Rosenblum)
  440. Subject: Gcc1.37.1 missing warning message
  441. Date: Thu, 10 Jan 91 11:30:36 PST
  442.  
  443. Program: Gcc
  444. Version: 1.37.1
  445. Machine type: Sparc (sun4)
  446. Options: -Wall -O
  447. Priority: Low
  448.  
  449. The man page for gcc says that the "-W" option combined with the "-O" options
  450. should print an extra warning message if an automatic variable is used 
  451. without being initialized. This doesn't work for the following program:
  452.  
  453. void
  454. foobar()
  455. {
  456.     extern void foo2 (int **);
  457.     extern int svar;
  458.     int    *uninitPtr;
  459.  
  460.     svar = *uninitPtr;    /* Dereference an uninitialized auto variable. */
  461.     foo2(&uninitPtr);   /* If this line is present then gcc 1.37.1 with
  462.              * the -Wall -O options doesn't generated an
  463.              * warning message for the above line. */
  464. }
  465.  
  466. The problem appears to be related to the passing by reference of uninitPtr
  467. after the access in error.  If the call to foo2() is removed or replaced
  468. with some other initialization such as "initPtr = (int *)0", the correct
  469. warning message is generated.
  470.  
  471.     Mendel
  472.  
  473.  
  474. Log-Number: 30603
  475. Date: Thu, 10 Jan 91 13:03:07 PST
  476. From: shirriff (Ken Shirriff)
  477. Subject: Xcfbpmax broken
  478.  
  479. /X11/R4/cmds/Xcfbpmax was recompiled yesterday and now it no longer
  480. works correctly.  I can't access the syslog inside X because I
  481. get /dev/syslog: Invalid argument.  This happens on old and new
  482. ds3100 kernels.
  483.  
  484.  
  485. Log-Number: 30607
  486. Date: Thu, 10 Jan 91 20:34:29 PST
  487. From: shirriff (Ken Shirriff)
  488. Subject: Re: Xcfbpmax broken
  489.  
  490. I fixed Xmfbpmax so the syslog works properly.  The problem was it does this:
  491.  
  492. if (!fopen(logfile,"a+")) then fopen("/dev/null") as log file.
  493.  
  494. The logfile was recently changed from /usr/adm/Xmsgs to /dev/syslog.
  495. Note that "a+" opens for reading and writing.  Thus, if you are
  496. already reading the syslog when this executes, it logs to /dev/null.
  497. However, if you aren't reading the syslog, Xmfbpmax latches onto
  498. it and then you can't read it.  I changed Xmfbpmax to open with "a"
  499. and now it seems to work fine.
  500.  
  501. Ken
  502.  
  503.  
  504. Log-Number: 30605
  505. Date: Thu, 10 Jan 91 16:00:07 PST
  506. From: elm@king.Berkeley.EDU (ethan miller)
  507. Subject: problems w/Cory sprite
  508.  
  509. All of a sudden (as of about 2 minutes before this e-mail was sent,
  510. at about 4:00 on 1/10/91), chisum started giving out lots of
  511. LE ethernet: Missed a packet messages.  They were coming one per
  512. line (ie, I'd type a line, and I'd get a message after I hit
  513. return).  We're running 1.075 over here.  Could that have something
  514. to do with it?  I know it's not a load problem; currently, the machine
  515. isn't running X (only the Mail program) and it's still happening.
  516.  
  517. thanks
  518.  
  519. ethan
  520.  
  521.  
  522. Log-Number: 30608
  523. Date: Fri, 11 Jan 91 09:20:18 PST
  524. From: tve (Thorsten von Eicken)
  525. Subject: assault ipserver dead?
  526.  
  527. can't login and some (all?) nfs filesystems give "I/O error"
  528.  
  529.  
  530. Log-Number: 30609
  531. From: mendel (Mendel Rosenblum)
  532. Subject: Re: assault ipserver dead? 
  533. Date: Fri, 11 Jan 91 10:22:47 PST
  534.  
  535. The IpServer along with the inetd, sendmail, and were missing.  I killed off 
  536. the nfsmounts and executed restartServers.
  537.  
  538.     Mendel
  539.  
  540.  
  541. Log-Number: 30611
  542. Date: Fri, 11 Jan 91 18:45:18 PST
  543. From: dlong@dogwood.ucsc.edu (Dean Long)
  544. Subject: bug in fsattach
  545.  
  546. There is a bug in fsattach.  It only produces the /hosts/$HOST/rsdXXX.fsc
  547. file for the first partition in the mount file.  The reason is in
  548. function MoveOutput in /sprite/src/admin/fsattach/misc.c.  The variable
  549. i in the outside loop is being reused for an inner loop.  The following
  550. is a context diff to fix it (for misc.c 1.9).
  551.  
  552. dl
  553.  
  554. -----------------------chop chop here---------------------
  555. *** misc.c.old    Mon Oct 22 09:29:03 1990
  556. --- misc.c    Fri Jan 11 18:35:53 1991
  557. ***************
  558. *** 419,425 ****
  559.       int        bytesWritten;
  560.       int        bytesToWrite;
  561.       char    buffer[1024];
  562. !     int        i;
  563.       Boolean    done;
  564.       char    *hostName;
  565.   
  566. --- 419,425 ----
  567.       int        bytesWritten;
  568.       int        bytesToWrite;
  569.       char    buffer[1024];
  570. !     int        i, mountIndex;
  571.       Boolean    done;
  572.       char    *hostName;
  573.   
  574. ***************
  575. *** 427,449 ****
  576.       printf("Moving output from fscheck.\n");
  577.       }
  578.       hostName = getenv("HOST");
  579. !     for(i = 0; i < mountCount; i++) {
  580.       if (debug) {
  581. !         printf("%d (%s): device = %s, status = %s\n", i, 
  582. !         mountTable[i].source,
  583. !         (mountTable[i].device == TRUE ? "true" : "false"),
  584. !         (mountTable[i].status == CHILD_OK) ? "ok" : "not ok");
  585.       }
  586. !     if (mountTable[i].checked == FALSE ||
  587. !         mountTable[i].status != CHILD_OK ||
  588. !         mountTable[i].device == FALSE) {
  589.           continue;
  590.       }
  591.       (void) sprintf(outputFile, "/hosts/%s/%s.fsc", hostName,
  592. !         mountTable[i].source);
  593.       if (verbose) {
  594.           printf("Copying output from checking %s to %s.\n", 
  595. !         mountTable[i].source, outputFile);
  596.       }
  597.       outputStream = fopen(outputFile, "a+");
  598.       if (outputStream == (FILE *)NULL) {
  599. --- 427,449 ----
  600.       printf("Moving output from fscheck.\n");
  601.       }
  602.       hostName = getenv("HOST");
  603. !     for(mountIndex = 0; mountIndex < mountCount; mountIndex++) {
  604.       if (debug) {
  605. !         printf("%d (%s): device = %s, status = %s\n", mountIndex, 
  606. !         mountTable[mountIndex].source,
  607. !         (mountTable[mountIndex].device == TRUE ? "true" : "false"),
  608. !         (mountTable[mountIndex].status == CHILD_OK) ? "ok" : "not ok");
  609.       }
  610. !     if (mountTable[mountIndex].checked == FALSE ||
  611. !         mountTable[mountIndex].status != CHILD_OK ||
  612. !         mountTable[mountIndex].device == FALSE) {
  613.           continue;
  614.       }
  615.       (void) sprintf(outputFile, "/hosts/%s/%s.fsc", hostName,
  616. !         mountTable[mountIndex].source);
  617.       if (verbose) {
  618.           printf("Copying output from checking %s to %s.\n", 
  619. !         mountTable[mountIndex].source, outputFile);
  620.       }
  621.       outputStream = fopen(outputFile, "a+");
  622.       if (outputStream == (FILE *)NULL) {
  623. ***************
  624. *** 452,458 ****
  625.           perror("");
  626.           return;
  627.       }
  628. !     (void) sprintf(inputFile, "%s/%s", mountTable[i].dest, tempOutputFile);
  629.       tempStream = fopen(inputFile,"r+");
  630.       if (tempStream == (FILE *)NULL) {
  631.           (void) fprintf(stderr, "%s: can't open \"%s\", ", progName,
  632. --- 452,459 ----
  633.           perror("");
  634.           return;
  635.       }
  636. !     (void) sprintf(inputFile, "%s/%s", mountTable[mountIndex].dest,
  637. !         tempOutputFile);
  638.       tempStream = fopen(inputFile,"r+");
  639.       if (tempStream == (FILE *)NULL) {
  640.           (void) fprintf(stderr, "%s: can't open \"%s\", ", progName,
  641.  
  642.  
  643. Log-Number: 30613
  644. Date: Sun, 13 Jan 91 01:51:21 PST
  645. From: dlong@dogwood.ucsc.edu (Dean Long)
  646. Subject: fsmake -dir doesn't seem to work
  647.  
  648. If I use fsmake to make a filesystem, and give the -dir option for
  649. a directory to copy, it prints out all the files it supposedly copied,
  650. but when I mount the filesystem, the files aren't there, and fscheck
  651. gives errors on the file system.
  652.  
  653. dl
  654.  
  655.  
  656. Log-Number: 30614
  657. Date: Sun, 13 Jan 91 16:40:49 PST
  658. From: tve (Thorsten von Eicken)
  659. Subject: IPserver on assault is dead again!
  660.  
  661.  
  662.  
  663.  
  664. Log-Number: 30615
  665. Subject: nfsmount botches store to full partition
  666. Date: Sun, 13 Jan 91 23:54:44 PST
  667. From: Mike Kupfer <kupfer>
  668.  
  669. Suppose I'm editing a file with Emacs and there's not enough room to
  670. save the revised version.  If the file is on a Sprite filesystem, when
  671. I try to save the file, Emacs sits there until I get bored and hit ^G,
  672. at which time it says there was an I/O error (presumably because the
  673. fsync() failed).  If the file is on an NFS partition, Emacs eventually
  674. comes back and says that the file has been saved.  This is a lie: only
  675. as many bytes as would fit have actually been saved.
  676.  
  677. One can provoke similar behavior using cp or cat.  If you overflow a
  678. Sprite partition, you won't get a complaint, and "ls -l" will show the
  679. sizes as though the copy had succeeded.  If you overflow an NFS
  680. partition, you still won't get a complaint, but "ls -l" will show the
  681. copy as truncated down to whatever size would fit.  The remaining bits
  682. are apparently just dropped on the floor.
  683.  
  684. mike
  685.  
  686.  
  687. Log-Number: 30617
  688. From: mendel (Mendel Rosenblum)
  689. Subject: Re: nfsmount botches store to full partition 
  690. Date: Mon, 14 Jan 91 09:32:40 PST
  691.  
  692. > Return-Path: kupfer
  693. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  694. >     id AA467295; Sun, 13 Jan 91 23:54:45 PST
  695. > Message-Id: <9101140754.AA467295@sprite.Berkeley.EDU>
  696. > To: bugs
  697. > Subject: nfsmount botches store to full partition
  698. > Date: Sun, 13 Jan 91 23:54:44 PST
  699. > From: Mike Kupfer <kupfer>
  700. > Suppose I'm editing a file with Emacs and there's not enough room to
  701. > save the revised version.  If the file is on a Sprite filesystem, when
  702. > I try to save the file, Emacs sits there until I get bored and hit ^G,
  703. > at which time it says there was an I/O error (presumably because the
  704. > fsync() failed).  If the file is on an NFS partition, Emacs eventually
  705. > comes back and says that the file has been saved.  This is a lie: only
  706. > as many bytes as would fit have actually been saved.
  707. > One can provoke similar behavior using cp or cat.  If you overflow a
  708. > Sprite partition, you won't get a complaint, and "ls -l" will show the
  709. > sizes as though the copy had succeeded.  If you overflow an NFS
  710. > partition, you still won't get a complaint, but "ls -l" will show the
  711. > copy as truncated down to whatever size would fit.  The remaining bits
  712. > are apparently just dropped on the floor.
  713. > mike
  714.  
  715. I think the problem is that in order to get acceptable write performance, Brent
  716. enabled write-behide on NFS pseudo-file systems files.  This means that the
  717. nfsmount deamon acks the write before it knows if there is room of the file on
  718. the remote file system. If it can't write the blocks to disk it prints a message
  719. and tosses it.   
  720.  
  721.     Mendel
  722.  
  723. ps.  Sorry about the blank message before this one.  I pushed the "Send" button 
  724.      instead of the "Insert" button in xmh.
  725.  
  726.  
  727. Log-Number: 30618
  728. Subject: xmh in infinite loop
  729. Date: Mon, 14 Jan 91 11:37:36 PST
  730. From: Mike Kupfer <kupfer>
  731.  
  732. I came back from making tea, only to find xmh in an infinite loop. 
  733. This is the stack backtrace from gdb.  I'm not sure I entirely trust
  734. it, since the xmh I was running didn't have symbols, so I used the xmh
  735. in /X11/R4/src.
  736.  
  737. mike
  738. --
  739. #0  0x13084 in XawAsciiSourceChanged ()
  740. #1  0x11d50 in XmhPrintView ()
  741. #2  0x25204 in XawTextSourceRead ()
  742. #3  0x1cc38 in _XawTextGetText ()
  743. #4  0x1cc84 in _XawTextGetSTRING ()
  744. #5  0x1eb58 in _SetSelection ()
  745. #6  0x1fb58 in _XawTextSetSelection ()
  746. #7  0x1fc58 in _XawTextAlterSelection ()
  747. #8  0x21d20 in _XawTextZapSelection ()
  748. #9  0x21e48 in _XawTextZapSelection ()
  749. #10 0x4ddc0 in _XtMatchUsingDontCareMods ()
  750. #11 0x36364 in XtWindowToWidget ()
  751. #12 0x36a08 in _XtOnGrabList ()
  752. #13 0x36aa8 in _XtOnGrabList ()
  753. #14 0x5774 in main (...) (...)
  754.  
  755.  
  756. Log-Number: 30619
  757. Subject: FS bottleneck if server is down?
  758. Date: Mon, 14 Jan 91 12:04:47 PST
  759. From: Mike Kupfer <kupfer>
  760.  
  761. I'm editing a file on /scratch1, which is served by allspice.  I save
  762. it (from Emacs), and it sits there for some seconds.  While I'm
  763. waiting, I type "df /scratch1" to a shell.  That hangs, too. 
  764. Eventually I see 
  765.  
  766.   <domain info> 1/14/91 11:58:12 raid1 (77) RPC timed-out
  767.  
  768. in my syslog, after which the save and the df immediately complete. 
  769. Can someone tell me what's going on here and whether this is
  770. avoidable?
  771.  
  772. thanks,
  773. mike
  774.  
  775.  
  776. Log-Number: 30620
  777. Date: Mon, 14 Jan 91 14:35:45 PST
  778. From: bmiller (Bob Miller)
  779. Subject: 'adduser' problem
  780.  
  781.  
  782. Any idea why adduser is not working for me???
  783.  
  784. Here's what I get...
  785.  
  786. subversion:/user1/bmiller> adduser
  787. Enter 1 if you already have a /etc/passwd file from another machine.
  788. Enter 2 if you want to fetch an entry from the ucb data base.
  789. Enter 3 if you want to enter the information interactively.
  790. Enter q to quit
  791. Please choose 1, 2 or 3: 2
  792. Enter user's last name: Slater
  793. Enter user's group: guest
  794. lastname is Slater, group is guest
  795.  
  796. Is this correct?  (y or n) y
  797. Fetching passwd entry from database on thalm.
  798. This will take a minute or two.  Please be patient....
  799. Permission denied.
  800. Could't fetch entry from thalm
  801. Make sure your machine is listed in /.rhosts
  802.  
  803. Cleaning up ...
  804.  
  805.  
  806.  
  807.  
  808. Log-Number: 30621
  809. Subject: Re: 'adduser' problem (/.rhosts on allspice)
  810. Date: Mon, 14 Jan 91 14:48:15 PST
  811. From: Mike Kupfer <kupfer>
  812.  
  813.  
  814. "adduser" didn't work because we had removed /.rhosts, because we
  815. couldn't remember why it was there.  Oops.  Well, now we know, and now
  816. it should be in the Sprite log for future reference.
  817.  
  818. So, try again and let me know if it still doesn't work.
  819.  
  820. mike
  821.  
  822.  
  823. Log-Number: 30622
  824. Subject: serious printer lossage (whining)
  825. Date: Mon, 14 Jan 91 21:53:17 PST
  826. From: Mike Kupfer <kupfer>
  827.  
  828.  
  829. You would think I could print a crummy 4-page, 76KB postscript file
  830. (slides for a talk) on the Laserwriter in 608-2.  And sometimes I can.
  831. Often, though, the job gets dropped on the floor, even when I'm out of
  832. the office, not doing anything on Sage.  This is getting to be a real
  833. pain.  What ever happened to the work on making sure we don't run with
  834. interrupts disabled for too long?
  835.  
  836. mike
  837.  
  838.  
  839. Log-Number: 30623
  840. Date: Mon, 14 Jan 91 23:55:58 PST
  841. From: elm (ethan miller)
  842. Subject: problem with most recent kernel
  843.  
  844. The newest kernel (1.081) does not work correctly on raid2 in Cory.
  845. Specifically, it fails to mount any directories in Evans.  I noticed
  846. this because my development kernel uses 1.081 .o modules, and I had
  847. problems.  When I booted raid2 using the released 1.081, the problems
  848. accessing /sprite/src and /scratch1 were still there.  The message
  849. was "Contacting server 14 for "/sprite/src" prefix" followed by
  850. "/sprite/src: no such file or directory".  The problem doesn't happen
  851. when I boot using the most recent version "officially" sent to
  852. Cory (1.075?).
  853.  
  854. ethan
  855.  
  856.  
  857. Log-Number: 30624
  858. Date: Tue, 15 Jan 91 02:11:37 PST
  859. From: elm (ethan miller)
  860. Subject: bug in ls -l
  861.  
  862. When I do an ls -l on a device with a large unit number (such as the
  863. ultranet device in /dev/ultra0), the unit number is listed as 0 even
  864. though it is actually 0x5000.  This caused me lots of grief, and it
  865. seems like it should be easy to fix.  This happens on a sun4.and a
  866. ds3100.
  867.  
  868. ethan
  869.  
  870.  
  871. Log-Number: 30625
  872. From: mendel (Mendel Rosenblum)
  873. Subject: Re: bug in ls -l 
  874. Date: Tue, 15 Jan 91 09:30:47 PST
  875.  
  876. > Return-Path: elm
  877. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  878. >     id AA332864; Tue, 15 Jan 91 02:11:37 PST
  879. > Date: Tue, 15 Jan 91 02:11:37 PST
  880. > From: elm (ethan miller)
  881. > Message-Id: <9101151011.AA332864@sprite.Berkeley.EDU>
  882. > To: bugs@sprite.Berkeley.EDU
  883. > Subject: bug in ls -l
  884. > When I do an ls -l on a device with a large unit number (such as the
  885. > ultranet device in /dev/ultra0), the unit number is listed as 0 even
  886. > though it is actually 0x5000.  This caused me lots of grief, and it
  887. > seems like it should be easy to fix.  This happens on a sun4.and a
  888. > ds3100.
  889. > ethan
  890.  
  891. The problem is comes in the mapping of Sprite attributes to Unix attributes.
  892. In Sprite, device unit numbers are 16bits while in Unix they are only 8bits.
  893. So (unsigned char) 0x5000 == 0x0. It would be trival to fix this but it would
  894. require recompling the world (kernel and all user programs).  All existing binaries
  895. would break. You don't know grief until you've try to change the structure returned
  896. by stat.
  897.  
  898.     Mendel
  899.  
  900. ps. You can use the "stat" command to print out the full 16bits of the device and
  901.     unit numbers.
  902.  
  903.  
  904. Log-Number: 30626
  905. From: tve (Thorsten von Eicken)
  906. Subject: Re: new dvips? 
  907. Date: Tue, 15 Jan 91 18:18:55 PST
  908.  
  909.  
  910. I backed out the new version of dvips. It works fine on our laserwriter
  911. II in 444 but
  912. doesn't on the old lw. I have no postscript knowledge and can't fix it. I will keep
  913. installing new tex software in a private area.
  914.     TvE
  915.  
  916. ------ Forwarded message -----
  917. Return-Path: msilva
  918. Received: by sprite.Berkeley.EDU (5.59/1.29)
  919.     id AA17479; Tue, 15 Jan 91 13:01:35 PST
  920. Date: Tue, 15 Jan 91 13:01:35 PST
  921. >From: msilva (Mario J. Silva)
  922. Message-Id: <9101152101.AA17479@sprite.Berkeley.EDU>
  923. To: tve
  924. Subject: dvips?
  925.  
  926. There is something wrong with our printer in lw608-8.
  927. Plain text files are preinted ok, but dvi files just make the LaserWriter
  928. blink for a while. Jobs don't come out.
  929.  
  930. The same jobs are printed ok when I send them to the ps printer.
  931.  
  932. This is the first time I try to print a dvi file since your
  933. announcement of the new version of dvips, so....
  934.  
  935. Any clues?
  936.  
  937. thanks, 
  938. Mario.
  939.  
  940.  
  941. Log-Number: 30627
  942. Date: Wed, 16 Jan 91 00:08:56 PST
  943. From: dlong@dogwood.ucsc.edu (Dean Long)
  944. Subject: directory entry not word aligned on sun4?
  945.  
  946.  
  947. What happens if the kernel comes across of corrupt directory, and one
  948. of the recordLength fields is not word aligned?  It seems like that
  949. would cause it to crash on a sun4.  I know that fscheck checks for
  950. this, but I don't think the kernel does.
  951.  
  952. dl
  953.  
  954.  
  955. Log-Number: 30628
  956. Date: Thu, 17 Jan 91 04:02:02 PST
  957. From: dlong (Dean Long)
  958. Subject: fscheck, -initialPart, and bootblocks
  959.  
  960. I think the default partition to read the disk label should be the
  961. partition being checked, not necessarily partition a.  The reason
  962. is fscheck will not find the domain header on partition c (for
  963. example) if partition c has 0 sectors allocated for the boot program,
  964. and partition a has 16.  Fscheck will read the disk label from
  965. parition a.  If it is a Sun label, it has to search for the
  966. domain header (of partition a).  Then when it goes to get the
  967. domain header for partition c (the partition being checked),
  968. it uses the disk label from partition a, which says the domain
  969. header starts at sector 18, not 2.
  970.  
  971. Most people probably don't worry about this, because they let
  972. fsmake allocated boot sectors for all their partitions, so the
  973. domain header is in the same place relative to the beginning of
  974. all the partitions.
  975.  
  976. You can make fscheck work by specifying the -initialPart option,
  977. but that would mean putting a line for each parition in the
  978. mount file, instead of one line with "all" at the beginning.
  979.  
  980. I don't see why you would ever want to read a disk label from
  981. a different partition than the one being checked, unless
  982. the label for the parition being checked is corrupted.
  983.  
  984. dl
  985.  
  986.  
  987. Log-Number: 30632
  988. From: mendel (Mendel Rosenblum)
  989. Subject: Anyone have any ideas on this
  990. Date: Fri, 18 Jan 91 17:05:41 PST
  991.  
  992.  
  993. ------- Forwarded Message
  994.  
  995. Return-Path: bks@okeeffe.berkeley.edu
  996. Received: from ginger.Berkeley.EDU by sprite.Berkeley.EDU (5.59/1.29)
  997.     id AA134723; Wed, 16 Jan 91 15:51:39 PST
  998. Received: from okeeffe.Berkeley.EDU by ginger.Berkeley.EDU (4.1/1.42)
  999.     id AA00244; Wed, 16 Jan 91 15:51:34 PST
  1000. Received: by okeeffe.Berkeley.EDU (5.65/1.41)
  1001.     id AA00208; Wed, 16 Jan 91 15:50:28 -0800
  1002. Date: Wed, 16 Jan 91 15:50:28 -0800
  1003. >From: bks@okeeffe.berkeley.edu (Brian K. Shiratsuki)
  1004. Message-Id: <9101162350.AA00208@okeeffe.Berkeley.EDU>
  1005. To: mendel@ginger.Berkeley.EDU
  1006. Subject: filesystem problems and pseudouser sprite
  1007. Reply-To: bks@ucbarpa.berkeley.edu
  1008.  
  1009. mendel,
  1010.  
  1011. for the second time, the fsck program has found lots of unreferenced
  1012. files on the /home/ginger/sprite filesystem and belonging to sprite.
  1013. they were all symbolic links pointing to /, and they all appeared
  1014. between 0200 and 0230.  any idea where these are coming from, or who
  1015. might know?
  1016.  
  1017.                     thanks,
  1018.  
  1019.                     brian
  1020.  
  1021. ------- End of Forwarded Message
  1022.  
  1023.  
  1024.  
  1025. Log-Number: 30633
  1026. Subject: Re: Anyone have any ideas on this 
  1027. Date: Fri, 18 Jan 91 17:22:40 PST
  1028. From: Mike Kupfer <kupfer>
  1029.  
  1030. Maybe they're related to the nightly rdist, which is fired off at
  1031. 0200, and which has been failing lately because /home/ginger/sprite is
  1032. full again?
  1033.  
  1034. mike
  1035.  
  1036.  
  1037. Log-Number: 30635
  1038. Date: Sat, 19 Jan 91 03:07:17 PST
  1039. From: dlong (Dean Long)
  1040. Subject: kernel memory leaks
  1041.  
  1042. I went through most of the filesytem directories, looking for
  1043. possible memory leaks, since prolonged disk activity causes
  1044. our kernel to eat up all of memory (and crash).  Here is what
  1045. I found:
  1046.  
  1047.     file        line allocated        line lost
  1048.  
  1049. fs/fsSysCall.c
  1050.             71            74
  1051.             80            86
  1052.             762            765
  1053.  
  1054. fsconsist/fsconsistCache.c
  1055.             2016            2074
  1056.  
  1057. fsprefix/fsprefixOps.c
  1058.             2211            2221
  1059.  
  1060. "line allocated" is the line number where the memory was allocated,
  1061. and "line lost" is line number of the (return) statement that
  1062. causes the non-freed memory to be lost, usually because of some
  1063. sort of failure.
  1064.  
  1065. dl
  1066.  
  1067.  
  1068. Log-Number: 30636
  1069. Date: Sun, 20 Jan 91 19:23:48 PST
  1070. From: dlong (Dean Long)
  1071. Subject: pmake, @ and -
  1072.  
  1073. Pmake doesn't work right for commands with white space between
  1074. the @ (or -) and the command.  It seems like something like
  1075.  
  1076.     @ echo foo
  1077.  
  1078. should be OK, at least in make-compatible mode.
  1079.  
  1080. dl
  1081.  
  1082.  
  1083. Log-Number: 30637
  1084. Date: Mon, 21 Jan 91 00:42:05 PST
  1085. From: dlong@dogwood.ucsc.edu (Dean Long)
  1086. Subject: bug in ping (or ipServer)
  1087.  
  1088. Ping expects the packet it receives to have an ip header.  ipServer
  1089. does not include the ip header in the packet.  Ping only works because
  1090. the byte in the packet that it examines for the ip header length is
  1091. zero.  In other words, ping is just lucky.
  1092.  
  1093. I think the bug is in ping, not ipServer.  ipServer is consistent:
  1094. the packets that go out on the socket have the same format as the
  1095. packets that come in.  Ping, however, sends packets of one format,
  1096. and expects a different format.
  1097.  
  1098. dl
  1099.  
  1100.  
  1101. Log-Number: 30640
  1102. Date: Tue, 22 Jan 91 13:14:49 PST
  1103. From: ss (Srinivasan Seshan)
  1104. Subject: terrorism died
  1105.  
  1106. error message:
  1107. Fatal Error: CacheFileInvalidate, hashing error
  1108. I rebooted it.  I found in this state when I got into my office at 1:10PM
  1109. on 1/22.  Apparently, it had this problem around the same time as allspice
  1110. was rebooted.
  1111.  
  1112. ethan (using srini's account)
  1113.  
  1114.  
  1115. Log-Number: 30642
  1116. Subject: xmh died trying to display new mail
  1117. Date: Tue, 22 Jan 91 14:35:54 PST
  1118. From: Mike Kupfer <kupfer>
  1119.  
  1120.  
  1121. I deleted the last (highest-numbered) message in +inbox and did a
  1122. "commit".  I then did a "new mail" and "view next message".  This put
  1123. xmh into the debugger.  I attached the process but couldn't get very
  1124. far.  XtMalloc doesn't call readv directly, at least as far as I can
  1125. tell.  (This may be caused by using a different xmh, because the one
  1126. in /X11/R4/cmds.sun4 doesn't have symbols.)  Also, perhaps it would
  1127. help if Xt and Xaw were compiled with debugging turned on?
  1128.  
  1129. mike
  1130. --
  1131. MachPageFault: Bus error in user proc 12147, PC = 78dac, addr = 136e78 BR Reg 8080
  1132.  
  1133. #0  0x78dac in sigpause ()
  1134. #1  0x78b1c in readv ()
  1135. #2  0x2cc44 in XtMalloc ()
  1136. #3  0x12e78 in XawAsciiSourceChanged ()
  1137. #4  0x11cf4 in XmhPrintView ()
  1138. #5  0x32cc8 in XtInitializeWidgetClass ()
  1139. #6  0x33068 in XtInitializeWidgetClass ()
  1140. #7  0x33400 in _XtCreateWidget ()
  1141. #8  0x334b0 in _XtCreateWidget ()
  1142. #9  0x77e0 in CreateFileSource (...) (...)
  1143. #10 0x63e4 in SetScrnNewMsg (...) (...)
  1144. #11 0x66a4 in SetScrn (...) (...)
  1145. #12 0x66cc in MsgSetScrn (...) (...)
  1146. #13 0xd858 in NextAndPreviousView (...) (...)
  1147. #14 0xd910 in DoNextView (...) (...)
  1148. #15 0xd964 in XmhViewNextMessage (...) (...)
  1149. #16 0x4ddc0 in _XtMatchUsingDontCareMods ()
  1150. #17 0x36364 in XtWindowToWidget ()
  1151. #18 0x36a08 in _XtOnGrabList ()
  1152. #19 0x36aa8 in _XtOnGrabList ()
  1153. #20 0x5774 in main (...) (...)
  1154.  
  1155.  
  1156.  
  1157. Log-Number: 30643
  1158. Subject: copying text to xmh composition window causes infinite loop
  1159. Date: Tue, 22 Jan 91 15:45:17 PST
  1160. From: Mike Kupfer <kupfer>
  1161.  
  1162.  
  1163. Copying the following text into an xmh composition window on sage puts
  1164. xmh into an infinite loop.
  1165.  
  1166.       From slater@ucbarpa.Berkeley.EDU Wed Jan 16 17:45:38 1991
  1167.     Date: Wed, 16 Jan 91 17:44:30 -0800
  1168.     From: slater@ucbarpa.Berkeley.EDU (Mel Slater)
  1169.     To: bmiller@sprite.Berkeley.EDU
  1170.     Subject: rcp
  1171.  
  1172.     I occassionally need to transfer files from
  1173.     arpa to sprite and vice versa. "rcp" always gives
  1174.     me "permission denied".
  1175.     Is there any way around this?
  1176.     Mel.
  1177.  
  1178. To reproduce it, there should be nothing in the body of the
  1179. composition (i.e., nothing after the line of dashes).  Copying it into
  1180. the header, or copying it into a body that already has some text (even
  1181. if it's just spaces) works okay.  Copying the text one line at a time
  1182. works okay.  Copying the text into an xedit window works okay.
  1183.  
  1184. gdb reports the following sample stack backtrace:
  1185.  
  1186.   #0  0x6cb9c in .div ()
  1187.   #1  0x24c08 in _XawTextSetField ()
  1188.   #2  0x24f78 in XawTextSinkMaxLines ()
  1189.   #3  0x1d028 in _XawTextBuildLineTable ()
  1190.   #4  0x201a0 in _XawTextShowPosition ()
  1191.   #5  0x20290 in _XawTextExecuteUpdate ()
  1192.   #6  0x20cec in XawTextSearch ()
  1193.   #7  0x20edc in XawTextSearch ()
  1194.   #8  0x4599c in XtDisownSelection ()
  1195.   #9  0x45a70 in XtDisownSelection ()
  1196.   #10 0x45b40 in XtGetSelectionValue ()
  1197.   #11 0x210a0 in XawTextSearch ()
  1198.   #12 0x210cc in XawTextSearch ()
  1199.   #13 0x4e750 in _XtTranslateEvent ()
  1200.   #14 0x365fc in XtWindowToWidget ()
  1201.   #15 0x36cc0 in _XtOnGrabList ()
  1202.   #16 0x36d5c in XtDispatchEvent ()
  1203.   #17 0x5774 in main (...) (...)
  1204.  
  1205. Further investigation shows that _XawTextShowPosition is the culprit,
  1206. in particular the lines 
  1207.  
  1208.   while (ctx->text.insertPos >= ctx->text.lt.info[lines].position) {
  1209.     if (ctx->text.lt.info[lines].position > ctx->text.lastPos)
  1210.       break; 
  1211.     _XawTextBuildLineTable(ctx, ctx->text.lt.info[1].position, FALSE);
  1212.   }
  1213.  
  1214. seem to be where the loop is.
  1215.  
  1216. mike
  1217.  
  1218.  
  1219. Log-Number: 30644
  1220. From: mendel (Mendel Rosenblum)
  1221. Subject: Bug in Sys_Shutdown
  1222. Date: Tue, 22 Jan 91 19:03:03 PST
  1223.  
  1224.  
  1225. The large down time we had this morning was due to a bug in the code
  1226. added to Sys_Shutdown() to sync the disks. The code should only sync
  1227. the disk when the flags specified to.  The reason is that fsattach
  1228. reboots the system after checking the root disk. The addition of the
  1229. writeback always code meant that problems on the root disk never got
  1230. fixed.  I've fixed this problem in the uninstalled sys module.
  1231.  
  1232.     Mendel
  1233.  
  1234.  
  1235. Log-Number: 30650
  1236. Subject: migd wedged on pdev
  1237. Date: Fri, 25 Jan 91 14:01:40 PST
  1238. From: Mike Kupfer <kupfer>
  1239.  
  1240.  
  1241. When I logged in last night "uptime" wasn't working on sage.  Further
  1242. investigation showed that different hosts were trying to become the
  1243. global master but getting hung on the migd pseudo-device.  I nuked
  1244. /sprite/admin/migd/pdev and restarted migd on sage, making it the
  1245. global master.  Violence had been the master but apparently went into
  1246. some infinite TLB fault loop earlier in the evening.  Here's an
  1247. excerpt from /sprite/admin/migd/global-log:
  1248.  
  1249. 22a5e: Global daemon checkpoint: running on violence.Berkeley.EDU at Thu Jan 24 19:13:10 1991
  1250. 22a5e: SaveCheckPoint - marking jaywalk down (curTime 664773190, updated 664773001).
  1251. 22a5e: Global_HostDown(host=jaywalk(18), closed=0) called.
  1252. 22a5e: SaveCheckPoint - checking terrorism foreign count.
  1253. 22a5e: SaveCheckPoint - checking sabotage foreign count.
  1254. 22a5e: PdevClose - daemon 24712 on host 71 exited
  1255. 22a5e: Global_HostDown(host=lsisim(71), closed=1) called.
  1256. 22a5e: PdevClose - daemon 1511c on host 81 exited
  1257. 22a5e: Global_HostDown(host=hoot(81), closed=1) called.
  1258. 22a5e: PdevClose - daemon 11d18 on host 29 exited
  1259. 22a5e: Global_HostDown(host=sassafras(29), closed=1) called.
  1260. 22a5e: PdevClose - daemon 40e1a on host 14 exited
  1261. 22a5e: Global_HostDown(host=allspice(14), closed=1) called.
  1262. 22a5e: Global_HostUp - sassafras pid 11d18 boot 663628415 version 16 maxProcs 1
  1263. 22a5e: Global_HostUp - allspice pid 40e1a boot 664577163 version 1016 maxProcs 1
  1264. 22a5e: PdevClose - daemon 13218 on host 50 exited
  1265. 22a5e: Global_HostDown(host=subversion(50), closed=1) called.
  1266. 22a5e: PdevClose - daemon 4192e on host 25 exited
  1267. 22a5e: Global_HostDown(host=assault(25), closed=1) called.
  1268. 22a5e: Global_HostUp - subversion pid 13218 boot 663610667 version 16 maxProcs 1
  1269. 22a5e: Global_HostUp - assault pid 4192e boot 663744032 version 16 maxProcs 1
  1270. Global_Init - process 71f15 version 5 on host hijack.Berkeley.EDU:
  1271.     run at Thu Jan 24 19:15:15 1991
  1272. CreateGlobal - we are the global master, pid 71f15
  1273. 71f15: Exiting: mismatch statting files: name inode <9615,-1>, version 45.
  1274. 71f15:     descriptor inode <9615,-1> version 44 (another migd running, or server changed file version).
  1275. Global_Init - process d3c2e version 5 on host arson.Berkeley.EDU:
  1276.     run at Thu Jan 24 19:28:39 1991
  1277. d3c2e: MigPdev_OpenMaster: couldn't open "/sprite/admin/migd/pdev" (text file or pseudo-device busy)
  1278. Global_Init - process e4435 version 5 on host sedition.Berkeley.EDU:
  1279.     run at Thu Jan 24 19:28:41 1991
  1280. e4435: MigPdev_OpenMaster: couldn't open "/sprite/admin/migd/pdev" (text file or pseudo-device busy)
  1281. Global_Init - process 95148 version 5 on host hoot.Berkeley.EDU:
  1282.     run at Thu Jan 24 19:28:39 1991
  1283. 95148: MigPdev_OpenMaster: couldn't open "/sprite/admin/migd/pdev" (text file or pseudo-device busy)
  1284.  
  1285.  
  1286. Log-Number: 30651
  1287. Date: Fri, 25 Jan 91 16:07:40 PST
  1288. From: tve (Thorsten von Eicken)
  1289. Subject: ununderstandable error message
  1290.  
  1291. [crackle registry] cp mkfile ../002-kes
  1292. cp: Unable to set Sprite user-file-type of dest
  1293. [crackle registry]
  1294.  
  1295. Huh?
  1296.  
  1297.  
  1298. Log-Number: 30652
  1299. Subject: Re: ununderstandable error message 
  1300. Date: Fri, 25 Jan 91 16:32:19 PST
  1301. From: Mike Kupfer <kupfer>
  1302.  
  1303.  
  1304. Files in Sprite have a type associated with them.  cp wants to
  1305. propagate the type, but it failed, and it's too stoopid to say why. 
  1306. (I will fix this shortly.)
  1307.  
  1308. mike
  1309.  
  1310.  
  1311. Log-Number: 30653
  1312. Subject: unused declarations in time.h
  1313. Date: Sun, 27 Jan 91 22:21:10 PST
  1314. From: Mike Kupfer <kupfer>
  1315.  
  1316. There seem to be a bunch of declarations in time.h that aren't used
  1317. and aren't backed up by actual code.  In particular, clock_t doesn't
  1318. seem to be used anywhere except time.h, and the functions clock(),
  1319. difftime(), and strftime() don't seem to be defined anywhere.  Does
  1320. anyone know what these declarations are for?  Are they just ideas that
  1321. nobody ever got around to actually implementing?  What's the
  1322. difference between clock_t and time_t?
  1323.  
  1324. mike
  1325.  
  1326.  
  1327. Log-Number: 30654
  1328. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  1329. Date: Mon, 28 Jan 1991 12:27:08 PST
  1330. Subject: directory rename
  1331.  
  1332.  
  1333. Mendel and I fixed a bug that caused a handle to be released twice.
  1334. This would happen if you tried to rename a directory, but the new name
  1335. was a directory that already existed and wasn't empty.  This doesn't
  1336. normally happen due to the semantics of mv but I managed to write a program
  1337. that did it.  The fix is in the uninstalled fslcl.
  1338.  
  1339. John
  1340.  
  1341.  
  1342. Log-Number: 30656
  1343. Date: Wed, 30 Jan 91 16:09:18 PST
  1344. From: gibson (Garth Gibson)
  1345. Subject: migration trap
  1346.  
  1347. I was using parsley (3100) as a host for a background pmake of many simulations
  1348. when parsley trapped to the debugger.  The message was:
  1349. Fatal Error: Assertion failed: file "vmMigrate.c", line 265
  1350. SPRITE VERSION 1.081 (ds3100) (10 Jan 91 14:39:34)
  1351. PC 0x800da62c
  1352.  
  1353. I have rebooted the machine.
  1354. garth
  1355.  
  1356.  
  1357. Log-Number: 30657
  1358. Subject: ipServer died: freed memory twice
  1359. Date: Thu, 31 Jan 91 17:26:04 PST
  1360. From: Mike Kupfer <kupfer>
  1361.  
  1362. After allspice came back this afternoon, I found that the IP Server on
  1363. sage had died.  The message in /hosts/sage/ip.out was
  1364.  
  1365.   Mem_Free: storage block already free
  1366.   Config file: /sprite/daemons/ipServer.config
  1367.      version:  IPS  5/15/88
  1368.  
  1369. Here's the backtrace and a couple data structures:
  1370.  
  1371.   (gdb) bt
  1372.   #0  0x19a18 in Sig_Send ()
  1373.   #1  0x15c58 in panic ()
  1374.   #2  0x18654 in free ()
  1375.   #3  0xe550 in TCP_SocketDestroy () (tcpSock.c line 853)
  1376.   #4  0xeaec in TCPCloseConnection (sockPtr=(Sock_InfoPtr) 0x9c3d8, tcbPtr=(TCPControlBlock *) 0x9c330) (tcpSock.c line 1294)
  1377.   #5  0xda3c in TCP_SocketClose (sockPtr=(Sock_InfoPtr) 0x9c3d8) (tcpSock.c line 171)
  1378.   #6  0x7eb4 in Sock_Close (privPtr=(struct Sock_PrivInfo *) 0x7b5d8) (sockOps.c line 409)
  1379.   #7  0x4fc8 in PdevRequestHandler (clientData=(ClientData) 0x7b5d8, streamID=31, eventMask=8) (main.c line 512)
  1380.   #8  0x144c4 in Fs_Dispatch ()
  1381.   #9  0x4910 in main (argc=1, argv=(char **) 0x1dffff04) (main.c line 235)
  1382.   (gdb) up 3
  1383.   #3  0xe550 in TCP_SocketDestroy () (tcpSock.c line 853)
  1384.   853        free((char *) tcbPtr->templatePtr);
  1385.   (gdb) print *tcbPtr
  1386.   $2 = {reassList = {prevPtr = 0x9c330, nextPtr = 0x9c330}, templatePtr
  1387. = 0xa7340, IPTemplatePtr = 0xa7360, connectPtr = 0x0, state = CLOSED,
  1388. flags = 0, timer = {0, 0, 0, 0}, rxtshift = 0, rxtcur = 2, dupAcks = 0,
  1389. maxSegSize = 556, idle = 0, rtt = 0, srtt = 8, rttvar = 2, rtseq =
  1390. 3139176862, urgentData = 0 '\000', urgentBufPos = 0, force = 0, send =
  1391. {unAck = 3139176863, next = 3139176863, window = 4096, urgentPtr =
  1392. 3139176863, updateSeqNum = 145216002, updateAckNum = 3139176863,
  1393. initial = 3139176862, maxSent = 3139176863, congWindow = 4652,
  1394. cwSizeThresh = 65535, maxWindow = 4096}, recv = {next = 145216029,
  1395. window = 4068, urgentPtr = 145216002, initial = 145216000, advtWindow = 145220097, maxWindow = 8191}}
  1396.   (gdb) up
  1397.   #4  0xeaec in TCPCloseConnection (sockPtr=(Sock_InfoPtr) 0x9c3d8, tcbPtr=(TCPControlBlock *) 0x9c330) (tcpSock.c line 1294)
  1398.   1294        TCP_SocketDestroy((ClientData) tcbPtr);
  1399.   (gdb) print *sockPtr
  1400.   $3 = {protoLinks = {prevPtr = 0x98d28, nextPtr = 0x98b30}, protoIndex
  1401. = 2, protocol = 0, protoData = 0x9c330, reqBufSize = 4164, requestBuf =
  1402. 0x87378 "\e", state = CONNECTED, options = 44, owner = {id = 0,
  1403. procOrFamily = 0}, flags = 16, clientCount = 1, error = 0, recvBuf =
  1404. {links = {prevPtr = 0x9c410, nextPtr = 0x9c410}, size = 0, maxSize =
  1405. 4096}, sendBuf = {links = {prevPtr = 0x9c420, nextPtr = 0x9c420}, size
  1406. = 0, maxSize = 4096}, local = {addrFamily = 0, port = 513, address =
  1407. 2149619206, padding = {"\000\000\000\000\000\000\000\000"}}, remote =
  1408. {addrFamily = 2, port = 1020, address = 2149615622, padding =
  1409. {"\035\377\373P\000\000\373@"}}, sentTo = {addrFamily = 0, port = 0,
  1410. address = 0, padding = {"\000\000\000\000\000\000\000\000"}}, linger =
  1411. 0, parentPtr = 0x622b0, clientList = {prevPtr = 0x9c468, nextPtr = 0x9c468}, justEstablished = 0}
  1412.   (gdb) up
  1413.   #5  0xda3c in TCP_SocketClose (sockPtr=(Sock_InfoPtr) 0x9c3d8) (tcpSock.c line 171)
  1414.   171            TCPCloseConnection(sockPtr, tcbPtr);
  1415.   (gdb) up
  1416.   #6  0x7eb4 in Sock_Close (privPtr=(struct Sock_PrivInfo *) 0x7b5d8) (sockOps.c line 409)
  1417.   409        status = protoInfo[sharePtr->protoIndex].ops.close(sharePtr);
  1418.   (gdb) print *privPtr
  1419.   $4 = {links = {prevPtr = 0x9c468, nextPtr = 0x9c468}, sharePtr =
  1420. 0x9c3d8, streamID = 31, fsFlags = 36867, pid = 139544, hostID = 33,
  1421. userID = 0, clientID = -1, recvFlags = 0, recvFrom = {addrFamily = 0,
  1422. port = 0, address = 0, padding = {"\000\000\000\000\000\000\000\000"}},
  1423. sendInfo = {flags = 0, addressValid = 0, address = {inet = {addrFamily
  1424. = 0, port = 0, address = 0, padding = {"\000\000\000\000\000\000\000\000"}}}}, sendInfoValid = 0}
  1425.   (gdb) print *sharePtr
  1426.   $5 = {protoLinks = {prevPtr = 0x98d28, nextPtr = 0x98b30}, protoIndex
  1427. = 2, protocol = 0, protoData = 0x9c330, reqBufSize = 4164, requestBuf =
  1428. 0x87378 "\e", state = CONNECTED, options = 44, owner = {id = 0,
  1429. procOrFamily = 0}, flags = 16, clientCount = 1, error = 0, recvBuf =
  1430. {links = {prevPtr = 0x9c410, nextPtr = 0x9c410}, size = 0, maxSize =
  1431. 4096}, sendBuf = {links = {prevPtr = 0x9c420, nextPtr = 0x9c420}, size
  1432. = 0, maxSize = 4096}, local = {addrFamily = 0, port = 513, address =
  1433. 2149619206, padding = {"\000\000\000\000\000\000\000\000"}}, remote =
  1434. {addrFamily = 2, port = 1020, address = 2149615622, padding =
  1435. {"\035\377\373P\000\000\373@"}}, sentTo = {addrFamily = 0, port = 0,
  1436. address = 0, padding = {"\000\000\000\000\000\000\000\000"}}, linger =
  1437. 0, parentPtr = 0x622b0, clientList = {prevPtr = 0x9c468, nextPtr = 0x9c468}, justEstablished = 0}
  1438.   (gdb) up
  1439.   #7  0x4fc8 in PdevRequestHandler (clientData=(ClientData) 0x7b5d8, streamID=31, eventMask=8) (main.c line 512)
  1440.   512            (void) Sock_Close(privPtr);
  1441.   (gdb) up
  1442.   #8  0x144c4 in Fs_Dispatch ()
  1443.   (gdb) up
  1444.   #9  0x4910 in main (argc=1, argv=(char **) 0x1dffff04) (main.c line 235)
  1445.   235        Fs_Dispatch();
  1446.   
  1447.  
  1448. mike
  1449.  
  1450.  
  1451. Log-Number: 30658
  1452. Date: Thu, 31 Jan 91 23:27:38 PST
  1453. From: shirriff@ginger.Berkeley.EDU (Ken Shirriff)
  1454. Subject: Allspice crash
  1455.  
  1456. The disk seems to be failing on allspice, and this caused a crash:
  1457.  
  1458. File blk 2259 phys blk 9036
  1459. Disk error
  1460. UfsBlockRealloc: Bad Descriptor Block domain = 2, block = 9036
  1461. SCSI3#0 target 1 LUN0 media error info bytes 0x0 0x0 0x47 0xa7
  1462. Ofs_FileDescStore: couldn't write back desc
  1463. Fslcl_DeleteFileDesc: couldn't mark desc as free
  1464. Fatal Error: Fscache_FetchBlock hashing error.
  1465.  
  1466.  
  1467. Log-Number: 30663
  1468. Date: Fri, 1 Feb 91 23:16:18 PST
  1469. From: shirriff@dill (Ken Shirriff)
  1470. Subject: Allspice crash
  1471.  
  1472. Allspice crashed, apparently because mayhem was sending poison packets:
  1473.  
  1474. a bunch of recovery with mayhem
  1475. mayhem: Zero length parameter to reopen request
  1476. Fatal Error: unaligned address trap in kernel
  1477.  
  1478. I tried to debug allspice, but the mgbaker kernel on ginger doesn't
  1479. seem to have symbols.
  1480.  
  1481. I rebooted allspice, but it got to recovery with mayhem and then seemed
  1482. to wedge, not getting to a login prompt.
  1483.  
  1484. I tried to kill mayhem, but kmsg doesn't seem to exist on dill, and the
  1485. king cluster doesn't recognize mayhem.
  1486.  
  1487. I've rebooted allspice again, but it probably will go nowhere until
  1488. someone can kill mayhem.
  1489.  
  1490. Ken
  1491.  
  1492.  
  1493. Log-Number: 30664
  1494. Subject: Re: Allspice crash 
  1495. Date: Sat, 02 Feb 91 13:02:07 PST
  1496. From: Mary Baker <mgbaker>
  1497.  
  1498. Allspice hit my mousetrap in Fsrmt_RpcReopen, for detecting when a reopen
  1499. packet doesn't have the necessary parameters.  After the test, it returns
  1500. FAILURE immediately, so I have no idea what was unaligned.  I somehow copied my
  1501. stripped kernel to ginger rather than the unstripped.  I just had to remove
  1502. the installed source for 1.078 on ginger in order to make room for my
  1503. unstripped kernel.  It's there now if this happens again.  (1.078 is the
  1504. official "old" kernel, so probably nobody wants to look at that anyway.)
  1505.  
  1506.  
  1507. Mary
  1508.  
  1509.  
  1510. Log-Number: 30697
  1511. From: mendel (Mendel Rosenblum)
  1512. Subject: Allspice crash
  1513. Date: Mon, 11 Feb 91 11:36:53 PST
  1514.  
  1515. Allspice crash again this morning. Same powercycle only problem. The
  1516. messages before the crash were:
  1517.  
  1518. Reinit receive unit.
  1519. Reinit receive unit.
  1520. Reinit receive unit.
  1521. Dev_SyslogWrite: Buffer overflow ...
  1522. Intel: Spurious interrupt (2)
  1523. Intel: Spurious interrupt (2)
  1524. Intel: Spurious interrupt (2)
  1525.  
  1526.  
  1527. I rebooted allspice with the new kernel.  It was running the old kernel.  
  1528. I started a debugger on shallot from dill with a breakpoint in panic(). 
  1529. If I'm not around when it crashes again someone should look at dill to
  1530. see if it made it into the debugger. 
  1531.  
  1532. Also, it is possible that the crashes are related to the full dump I'm
  1533. trying to do.  The last four crashes have all been during the attempted
  1534. dump of /user4.
  1535.  
  1536.     Mendel
  1537.  
  1538.  
  1539. Log-Number: 30659
  1540. Date: Fri, 1 Feb 91 00:01:06 PST
  1541. From: tve@ginger.Berkeley.EDU (Thorsten von Eicken)
  1542. Subject: /tmp broken
  1543.  
  1544. Allspice seems to have died a little while ago. No it's back. However
  1545. /tmp is not usable. Any attempt to creat a file returns the
  1546. error "file already exists". This has happened a week or two ago already.
  1547.     TvE
  1548.  
  1549.  
  1550. Log-Number: 30660
  1551. From: Fred Douglis <douglis@cs.vu.nl>
  1552. Subject: two mail bugs
  1553. Date: Fri, 01 Feb 91 09:54:24 +0100
  1554.  
  1555. I logged into sprite and noticed I had mail.  This is bug 1, since
  1556. mail is supposed to be forwarded.  Perhaps it happened when assault
  1557. was down or something and my home directory wasn't accessible.  It
  1558. would be so nice if Sprite could handle this situation more
  1559. gracefully, somehow. 
  1560.  
  1561. Bug 2 is that when I tried to read my mail, every time I ran Mail I
  1562. hit something like:
  1563.  
  1564.     /usr/tmp/Rx608569: file already exists
  1565.  
  1566. I checked one time, and the file did not exist.  /usr/tmp points to
  1567. /tmp, and /tmp seems to be accessible and world-writable, so I don't
  1568. see what the problem is.
  1569.  
  1570. Fred
  1571.  
  1572.  
  1573. Log-Number: 30661
  1574. Date: Fri, 1 Feb 91 11:22:39 PST
  1575. From: ouster (John Ousterhout)
  1576. Subject: Disk space?
  1577.  
  1578. I'm getting lots of messages in my syslog like this:
  1579.  
  1580. 2/1/91 11:21:34 allspice (14) RmtFile "/sprite/spool/mail/bmiller" <10,2223> Write-back failed: out of disk space<40008>
  1581.  
  1582. but when there appears to be lots of space available:
  1583.  
  1584. Prefix              Server       KBytes       Used      Avail    % Used
  1585. /                   allspice     495968     409516      36855      91%
  1586.  
  1587. Anyone have any ideas what's up?
  1588.                     -John-
  1589.  
  1590.  
  1591. Log-Number: 30662
  1592. Date: Fri, 1 Feb 91 11:25:28 PST
  1593. From: ouster (John Ousterhout)
  1594. Subject: Poisonous file?
  1595.  
  1596. The file /sprite/spool/mail/bmiller appears to be poisonous:  if I
  1597. try to "ls -l" it, the ls hangs.
  1598.                     -John-
  1599.  
  1600.  
  1601. Log-Number: 30665
  1602. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  1603. Date: Sat, 2 Feb 1991 18:00:08 PST
  1604. Subject: allspice crashed
  1605.  
  1606.  
  1607. Allspice crashed this afternoon with another of those hashing errors.
  1608. It looks like allspice got a bunch of hard errors trying to read descriptor
  1609. blocks off the /user1 filesystem. I don't know if these two things are
  1610. related but I took no chances and unmounted the disk (after copying its
  1611. contents to /scratch3).  The /user1 filesystem is on the disk that used to
  1612. contain /scratch3.  The old /user1 disk is not mounted.  There is a core file
  1613. on ginger in the standard place (I haven't looked at it).
  1614.  
  1615. When allspice rebooted it didn't go through recovery with quite a few machines.
  1616. I did an "rpcstat -trace" and all it showed were a bunch of echo requests
  1617. that weren't being answered.  Since allspice had been down for over an hour
  1618. I rebooted it to see if that would fix the problem.  
  1619. The second time it seemed to recover fine. 
  1620.  
  1621. John
  1622.  
  1623.  
  1624. Log-Number: 30668
  1625. Subject: Trace_Dump can scrawl over user memory
  1626. Date: Sun, 03 Feb 91 21:20:19 PST
  1627. From: Mike Kupfer <kupfer>
  1628.  
  1629. Consider the code 
  1630.  
  1631.     if (traceHdrPtr->recordArray[current].flags == TRACE_UNUSED) {
  1632.     numRecs = current;
  1633.     earlyRecs = current;
  1634.     lateRecs = 0;
  1635.     } else if (numRecs > lateRecs) {
  1636.     earlyRecs = numRecs - lateRecs;
  1637.     }
  1638.  
  1639. from Trace_Dump.
  1640.  
  1641. Suppose there are 135 records in the trace buffer, but the user only
  1642. wants 10.  Further, suppose we haven't wrapped around the buffer yet,
  1643. so that the TRUE part of the if is taken.  numRecs is now set to 135,
  1644. and that's how many records the user will get.  If he only allocated
  1645. space for 10, well, the probability of Bad Things happening just went
  1646. up by quite a bit.
  1647.  
  1648. mike
  1649.  
  1650.  
  1651. Log-Number: 30669
  1652. Subject: how to debug migration problems
  1653. Date: Sun, 03 Feb 91 21:40:51 PST
  1654. From: Mike Kupfer <kupfer>
  1655.  
  1656. I was having problems compiling stuff on sage earlier today.  The
  1657. basic symptom was that a bunch of the .o files wouldn't get created,
  1658. and there wouldn't be an error message anywhere.  This sounded like
  1659. some problem we had in the past where jobs would get migrated to some
  1660. sick host and then die.
  1661.  
  1662. The question is, how do I find out which host is causing the problems?
  1663. I don't want to go around disabling migration on Sparcstations until I
  1664. find the culprit.  Instead, I want some way to track missing .o files
  1665. back to the host that they were supposed to be compiled on.  I spent a
  1666. good long time messing with "migcmd -t" and "migcmd -d", but I didn't
  1667. produce anything that looked remotely useful.
  1668.  
  1669. mike
  1670.  
  1671.  
  1672. Log-Number: 30670
  1673. From: Fred Douglis <douglis@cs.vu.nl>
  1674. Subject: Re: how to debug migration problems 
  1675. Date: Mon, 04 Feb 91 10:12:49 +0100
  1676.  
  1677. For pmake, it's a bit easier because you can run "pmake -d jr" and it
  1678. will tell you where it sends each job.  In general, increasing the
  1679. debugging level for migration ought to give you some more info, but
  1680. will be harder to tie to particular files.  Tracing migration hasn't
  1681. been done in so long that I'm surprised you didn't crash a machine,
  1682. let alone produce anything remotely useful :-).
  1683.  
  1684. Fred
  1685.  
  1686.  
  1687. Log-Number: 30671
  1688. From: Fred Douglis <douglis@cs.vu.nl>
  1689. Subject: possible SCSI register bug 
  1690. Date: Mon, 04 Feb 91 13:57:55 +0100
  1691.  
  1692. Greg Sharp, a programmer here, found a bug in the Amoeba SCSI driver,
  1693. which had apparently been derived from the SunOS SCSI driver.  He then
  1694. checked, and sure enough, Sprite apparently has the same bug.  (He
  1695. then made noises asking why we hadn't been sued yet; I suppose one
  1696. could ask him the same thing.)
  1697.  
  1698. Anyway, it seems that the routine "WaitPhase" checks CBSR_PHASE_BITS
  1699. but doesn't check to see that the request signal is asserted.  In the
  1700. fine print in the SCSI documentation, however, it says those bits are
  1701. only valid when request is asserted, and there is at least one device
  1702. Greg has found that asserts something looking like "message in" for a
  1703. short period of time before moving on to assert something else.  It
  1704. might be worth looking into.
  1705.  
  1706. This bug report brought to you as a public service of the folks at
  1707. VU... :-)
  1708.  
  1709. Fred
  1710.  
  1711.  
  1712.  
  1713. Log-Number: 30672
  1714. Date: Mon, 4 Feb 91 10:08:45 PST
  1715. From: johnw (John Wawrzynek)
  1716. Subject: X server
  1717.  
  1718. The X server is not running correctly on gluttony.  I start it up
  1719. with the xinit command and nothing happens.  Thanks.
  1720.  
  1721. -JohnW
  1722.  
  1723.  
  1724. Log-Number: 30673
  1725. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  1726. Date: Mon, 4 Feb 1991 11:04:39 PST
  1727. Subject: Xserver flakiness
  1728.  
  1729.  
  1730. X won't start up if the name server (ginger) is not working, as is the
  1731. case at the moment.  We are looking into the problem.
  1732.  
  1733. John
  1734.  
  1735.  
  1736. Log-Number: 30674
  1737. Subject: df broken on LFS
  1738. Date: Mon, 04 Feb 91 13:16:48 PST
  1739. From: Mike Kupfer <kupfer>
  1740.  
  1741. df says there's 148892 blocks available, but I keep getting
  1742. "write-back failed: out of disk space" messages.  This is not a big
  1743. deal as long as LFS is "experimental", but I think it should be fixed
  1744. before we install LFS as a "production" system.
  1745.  
  1746. mike
  1747.  
  1748.  
  1749. Log-Number: 30675
  1750. Subject: allspice crash
  1751. Date: Mon, 04 Feb 91 13:42:03 PST
  1752. From: Mary Baker <mgbaker>
  1753.  
  1754. Allspice died with the error "F".
  1755.  
  1756. It could not be debugged or watchdog reset.  It was powercycled instead.
  1757.  
  1758. Mary
  1759.  
  1760.  
  1761. Log-Number: 30685
  1762. From: mendel (Mendel Rosenblum)
  1763. Subject: allspice crash
  1764. Date: Wed, 06 Feb 91 20:46:00 PST
  1765.  
  1766. Allspice was in the debugger when I came back from dinner with a 
  1767. "HandleRelease: file not locked" error message. The core file is
  1768. in /home/ginger/raid/cores/raid/allspice.crash.2-6 if anyone wants
  1769. to look.   I rebooted it.
  1770.  
  1771.     Mendel
  1772.  
  1773. ps.  After allspice rebooted jaywalk couldn't find any commands, libraries, 
  1774.      or X11 font directories. I tracked the problem down it allspice's
  1775.      route table not having a machine type (ie "sun4") for jaywalk.  My
  1776.      guess is that it must of hit on the bug this caused netroute.new 
  1777.      to not install routes correctly.  I reran netroute.new and 
  1778.      everything started working. 
  1779.  
  1780.  
  1781. Log-Number: 30676
  1782. From: mendel (Mendel Rosenblum)
  1783. Subject: ds5000 considered harmful
  1784. Date: Mon, 04 Feb 91 18:26:04 PST
  1785.  
  1786. Forgery hung allspice in an infinite loop by dropping consist messages. 
  1787. I "ksmg -d" forgery and the problem cleared up. The syslog messages
  1788. looked like:
  1789.  
  1790. Client 43 dropped 30 write-back & invalidate requests for "lw477-log" <10,92751>
  1791. Client 43 dropped 30 write-back & invalidate requests for "lw477-log" <10,92751>
  1792. Client 43 dropped 30 write-back & invalidate requests for "lw477-log" <10,92751>
  1793. Client 43 dropped 30 write-back & invalidate requests for "lw477-log" <10,92751>
  1794. Client 43 dropped 30 write-back requests for "lock" <10,92752>
  1795. Client 43 dropped 30 write-back & invalidate requests for "lw477-log" <10,92751>
  1796. Client 43 dropped 30 write-back requests for "lock" <10,92752>
  1797. Client 43 dropped 30 write-back & invalidate requests for "lw477-log" <10,92751>
  1798. Client 43 dropped 30 write-back requests for "lock" <10,92752>
  1799. Client 43 dropped 30 write-back & invalidate requests for "lw477-log" <10,92751>
  1800. Client 43 dropped 30 write-back requests for "lock" <10,92752>
  1801. Client 43 dropped 30 write-back & invalidate requests for "lw477-log" <10,92751>
  1802. Client 43 dropped 30 write-back requests for "lock" <10,92752>
  1803. Client 43 dropped 30 write-back & invalidate requests for "lw477-log" <10,92751>
  1804. Client 43 dropped 30 write-back requests for "lock" <10,92752>
  1805. Client 43 dropped 30 write-back requests for "lock" <10,92752>
  1806. Client 43 dropped 30 write-back requests for "lock" <10,92752>
  1807. Client 43 dropped 30 write-back requests for "lock" <10,92752>
  1808. Client 43 dropped 30 write-back requests for "lock" <10,92752>
  1809. Client 43 dropped 30 write-back requests for "lock" <10,92752>
  1810. Client 43 dropped 30 write-back requests for "lock" <10,92752>
  1811. Client 43 dropped 30 write-back requests for "lock" <10,92752>
  1812. Client 43 dropped 30 write-back requests for "lock" <10,92752>
  1813.  
  1814.  
  1815.     Mendel
  1816.  
  1817.  
  1818. Log-Number: 30677
  1819. From: mendel (Mendel Rosenblum)
  1820. Subject: Allspice crashed last night
  1821. Date: Tue, 05 Feb 91 10:32:06 PST
  1822.  
  1823. Allspice was down this morning when I came in.  The problem appeared to 
  1824. be a corrupted directory /swap1/83/153 (83 == loiter). It seems that
  1825. ds5000s are an evil machine.   Fscheck repaired the damage when I rebooted
  1826. it.  While allspice was down joyride went into an infinite recovery loop
  1827. with anise. I put joyride into the debugger.   After allspice rebooted, 
  1828. forgery (another ds5000) went into an infinite recovery loop with allspice.
  1829. I put forgery into the debugger.  
  1830.  
  1831.     Mendel
  1832.  
  1833.  
  1834. Log-Number: 30678
  1835. From: mendel (Mendel Rosenblum)
  1836. Subject: Anise crash with disk full
  1837. Date: Tue, 05 Feb 91 13:17:36 PST
  1838.  
  1839. Anise panic'ed inside of LFS today with the code trying to update the
  1840. attributes of an unallocated descriptor. The kgcore program from allsprite
  1841. would not finish. It kept hanging part way thru the dump.  
  1842. The message before the crash indicated that the disk was full and file
  1843. allocates and writes were failing.  My guess is that the crash had something
  1844. to do with this.  Note that currently the LFS file systems will stop
  1845. allocation when the disks are 75% full.  This is why you get disk full
  1846. messages when the disk is 75% full.
  1847.  
  1848.     Mendel
  1849.  
  1850.  
  1851. Log-Number: 30679
  1852. Date: Tue, 5 Feb 91 13:38:33 PST
  1853. From: shirriff (Ken Shirriff)
  1854. Subject: Sendmail bug fixed
  1855.  
  1856. I figured out why we got those mailer daemon messages about too many hops,
  1857. with the multiple message to allspice from sprite.
  1858. The problem was that mail to foo.bar@sprite would cause a loop.
  1859. This was because sendmail was doing:
  1860.   foo.bar@sprite  is name resolved to foo.bar@allspice.Berkeley.EDU.
  1861.   This doesn't match our name (sprite.Berkeley.EDU) so we'll send it on.
  1862. Thus, there was a loop.
  1863. The solution was to change sendmail.cf to check against the local machine
  1864. before and after name resolution.
  1865.  
  1866. If anything strange happens with mail, let me know.
  1867.  
  1868. Ken
  1869.  
  1870.  
  1871. Log-Number: 30680
  1872. Subject: lint in pmax X server causes crash
  1873. Date: Tue, 05 Feb 91 18:01:11 PST
  1874. From: Mike Kupfer <kupfer>
  1875.  
  1876.  
  1877. The RAID guys are still having problems with their CAD software
  1878. crashing the X server on DS3100s.  I've tracked it down to the line
  1879.  
  1880.   (*pmPointer->processInputProc) (&motion, pmPointer);
  1881.  
  1882. in mfbpmax_io.c:pmSetCursorPosition().  There are two problems with
  1883. this line.  The first is that the function being called expects 3
  1884. arguments, not 2.  The second is a type clash at the second argument.
  1885.  
  1886. The first problem was fixed in the very first R4 patch.  Examination
  1887. of our sources shows that only some of the changes from fix-1 are in
  1888. our source tree.  Either the patch was only partially applied, or some
  1889. of the changes were later backed out.  This makes me nervous--what
  1890. other patches are there that we think we've incorporated but haven't
  1891. really?
  1892.  
  1893. I will post a query to xpert about the second problem.
  1894.  
  1895. mike
  1896.  
  1897.  
  1898. Log-Number: 30681
  1899. Date: Wed, 6 Feb 91 11:47:40 PST
  1900. From: elm (ethan miller)
  1901. Subject: problems with rn on sun4c
  1902.  
  1903. For some reason, rn on my sparcstation refuses to recognize certain groups
  1904. (the one I've noticed is soc.net-people).  It claims they are bogus.
  1905. rn on the ds3100 doesn't do this; nor does xrn on the sparc.
  1906.  
  1907. ethan
  1908.  
  1909.  
  1910. Log-Number: 30700
  1911. Subject: Re: problems with rn on sun4c 
  1912. Date: Mon, 11 Feb 91 12:57:22 PST
  1913. From: Mike Kupfer <kupfer>
  1914.  
  1915. The reason rn works on Decstations is that somebody installed a new
  1916. version of rn, bringing it up to patchlevel 50.  However, the new
  1917. version was not installed on the Suns :-(.  I tried recompiling for
  1918. the Sparcstation, but there are compilation problems.  I'll look into
  1919. getting rn to compile, but I can't guarantee when I'll get to it.
  1920.  
  1921. mike
  1922. --
  1923. To: Mike Kupfer <kupfer@sprite.Berkeley.EDU>
  1924. Subject: Re: bogus newsgroups on agate 
  1925. Date: Wed, 07 Nov 90 18:36:35 PST
  1926. >From: rob@violet.berkeley.edu
  1927.  
  1928.  
  1929.  
  1930. those are valid group.  you might check the version of rn your using.
  1931.  
  1932. do a control V inside of it.  if it isn't patch level 47, the problem
  1933. is a know bug with older versions of rn, that comes out when the
  1934. number of groups agate subscribes to is over 1024.
  1935.  
  1936. get your system administrator to install the latest copy of rn if this
  1937. is the case.
  1938.  
  1939. rob
  1940.  
  1941.     Return-Path: kupfer@sprite.Berkeley.EDU
  1942.     Received: from sage.Berkeley.EDU by violet.berkeley.edu (5.61/1.32 (TEMP))
  1943.         id AA22493; Fri, 2 Nov 90 16:31:08 PST
  1944.     Received: by sprite.Berkeley.EDU (5.59/1.29)
  1945.         id AA729397; Fri, 2 Nov 90 16:31:11 PST
  1946.     Message-Id: <9011030031.AA729397@sprite.Berkeley.EDU>
  1947.     To: rob@violet.berkeley.edu
  1948.     Subject: bogus newsgroups on agate
  1949.     Date: Fri, 02 Nov 90 16:31:09 PST
  1950.     From: Mike Kupfer <kupfer@sprite.Berkeley.EDU>
  1951.     
  1952.     When I run rn, it asks me if I want to add a bunch of newsgroups. 
  1953.     However, for quite a few of them, if I say "yes", it then says that
  1954.     they're bogus groups.  Some of the groups are:
  1955.     
  1956.       fj.guide.admin
  1957.       fj.jus
  1958.       alt.books.technical
  1959.     
  1960.     mike
  1961.  
  1962.  
  1963.  
  1964. Log-Number: 30684
  1965. From: mendel (Mendel Rosenblum)
  1966. Subject: Re: Migration problem 
  1967. Date: Wed, 06 Feb 91 17:56:41 PST
  1968.  
  1969. > Return-Path: shirriff
  1970. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  1971. >     id AA731687; Wed, 6 Feb 91 17:52:02 PST
  1972. > Date: Wed, 6 Feb 91 17:52:02 PST
  1973. > From: shirriff (Ken Shirriff)
  1974. > Message-Id: <9102070152.AA731687@sprite.Berkeley.EDU>
  1975. > To: bugs
  1976. > Subject: Migration problem
  1977. > I'm running my simulator and using 60% of the CPU.  However, if I leave
  1978. > my machine idle, and then touch it, I get "Eviced 4 processes."  So how
  1979. > come Garth's processes are migrating onto my machine, even though I'm
  1980. > using it heavily?
  1981. > Ken
  1982.  
  1983. Doesn't the migration key off the load average (the average number of running 
  1984. processes) rather than the CPU utilization?  If you are using only 60% of the
  1985. CPU then your load average must be less than 1.0 so migrations might be
  1986. accepted.  Are you trying to say you don't want to share that last 40% with
  1987. garth?  
  1988.  
  1989.     Mendel
  1990.  
  1991.  
  1992. Log-Number: 30688
  1993. From: Fred Douglis <douglis@cs.vu.nl>
  1994. Subject: Re: Migration problem 
  1995. Date: Thu, 07 Feb 91 10:18:27 +0100
  1996.  
  1997. At some point, while I was working on the problem with machines
  1998. floating up to a load of 1.0 for no reason, I changed the thresholds a
  1999. bit.  It's easier for things to wander onto a machine that has a
  2000. steady load.  Feel free to play with the thresholds (defined in the
  2001. migd sources, but ultimately it would be nice to get them from a file
  2002. or something).
  2003.  
  2004. I never did track down why the loads got out of kilter, even with a
  2005. fair amount of debugging info.  If anyone ever finds out, please let
  2006. me know.
  2007.  
  2008. Fred
  2009.  
  2010.  
  2011. Log-Number: 30686
  2012. Date: Wed, 6 Feb 91 23:18:20 PST
  2013. From: msilva (Mario J. Silva)
  2014. Subject: strange things are happening...
  2015.  
  2016.  
  2017. I have a .forward file on sprite, so it was surprising to find after
  2018. login  a "you have mail message". I checked the mailbox and got a "no
  2019. mail". I didn't care for a few days, until I decided to investigate 10
  2020. minutes ago.
  2021.  
  2022. In /usr/spool/mail/msilva,
  2023. I found a file with 7036 bytes containing what seems to me a log from
  2024. migd with about 4k and, appended to that, a mail message directed to me.
  2025.  
  2026. Mario.
  2027.  
  2028. This is how the log looked like:
  2029.  
  2030. Global_Init - process f2c4e version 5 on host mustard.Berkeley.EDU:
  2031.     run at Fri Feb  1 08:37:12 1991
  2032.     run at Fri Feb  1 08:37:12 1991
  2033.     run at Fri Feb  1 08:37:12 1991
  2034.     run at Fri Feb  1 08:36:57 1991
  2035.     run at Fri Feb  1 08:37:12 1991
  2036.     run at Fri Feb  1 08:37:12 1991
  2037. 2443e: MigPdev_OpenMaster: couldn't open "/sprite/admin/migd/pdev" (text file or pseudo-device busy)
  2038. 32154: MigPdev_OpenMaster: couldn't open "/sprite/admin/migd/pdev" (text file or pseudo-device busy)
  2039. 4930: MigPdev_OpenMaster: couldn't open "/sprite/admin/migd/pdev" (text file or pseudo-device busy)
  2040. d126d: MigPdev_OpenMaster: couldn't open "/sprite/admin/migd/pdev" (text file or pseudo-device busy)
  2041. 5484c: MigPdev_OpenMaster: couldn't open "/sprite/admin/migd/pdev" (text file or pseudo-device busy)
  2042. 62a5f: MigPdev_OpenMaster: couldn't open "/sprite/admin/migd/pdev" (text file or pseudo-device busy)
  2043. 32155: MigPdev_OpenMaster: couldn't open "/sprite/admin/migd/pdev" (text file or pseudo-device busy)
  2044. 3938: MigPdev_OpenMaster: couldn't open "/sprite/admin/migd/pdev" (text file or pseudo-device busy)
  2045. Global_Init - process 71937 version 5 on host assault.Berkeley.EDU:
  2046. Global_Init - process 74f34 version 5 on host garlic.Berkeley.EDU:
  2047. d3216: MigPdev_OpenMaster: couldn't open "/sprite/admin/migd/pdev" (text file or pseudo-device busy)
  2048. f2c4e: MigPdev_OpenMaster: couldn't open "/sprite/admin/migd/pdev" (text file or pseudo-device busy)
  2049.     run at Fri Feb  1 08:37:06 1991
  2050.  
  2051.  
  2052. Log-Number: 30687
  2053. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  2054. Date: Wed, 6 Feb 1991 23:21:16 PST
  2055. Subject: Re: strange things are happening...
  2056.  
  2057. Our root disk got a little messed up a few days ago and you are seeing the
  2058. result.  Just delete your spool file and mail should work better.  Sorry
  2059. for the screwup.
  2060.  
  2061. John
  2062.  
  2063.  
  2064. Log-Number: 30690
  2065. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  2066. Date: Thu, 7 Feb 1991 17:20:07 PST
  2067. Subject: ds5000/200 cache weirdness
  2068.  
  2069.  
  2070. I've run into a strange problem while getting the X server to work
  2071. properly on the ds5000.  As Ed suggested I looked at whether or
  2072. not I was handling the cache correctly and I discovered that the
  2073. shared data structures (shared between kernel and X server) were
  2074. cached for the kernel, and uncached for the X server.  I changed
  2075. it so that they where both cached and I began to see strange
  2076. behavior.  Here are the details.  The X server and the kernel share
  2077. a queue of structures that are 3 words long. The x,y coordinates
  2078. of the mouse are stored as two shorts in the first word of the
  2079. structure.  The cache line size is 4 words.  This means that if an
  2080. element is aligned on a cache line boundary, the last word of the
  2081. cache line contains the x,y coordinates for the next element.  This
  2082. will happen to every 4th element.  The strange behavior is that
  2083. the X server will not see the writes to the x,y coordinates to the
  2084. second element in a cache line.  In particular, it appears as if
  2085. the write by the kernel bypasses the cache and goes directly to
  2086. memory.  When the X server reads the element it already has the
  2087. line in the cache so it reads the old x,y values.  I verified that
  2088. the values are indeed the values from the last time that the element
  2089. was used.   The x,y values are 2 bytes long, so writing them involves
  2090. a read-modify-write operation on the memory location.  The correct
  2091. behavior is seen if you take one of these actions 1) make the data
  2092. structures uncacheable, 2) flush the cache line before writing the
  2093. values, 3) flush the cache line after writing the values, 3) read
  2094. the values before writing them, and 4) read the values after writing
  2095. them.  Currently I am using approach #1, although 3 and 4 would be
  2096. easy to implement.  Does anyone have any ideas on what is going
  2097. wrong here, or which solution is preferable?  I can't figure out
  2098. why it makes a difference if the preceding read of the cache line
  2099. was done by the X server or by the kernel since the cache is
  2100. physical, but it appears to be true.
  2101.  
  2102. John
  2103.  
  2104.  
  2105. Log-Number: 30694
  2106. From: mendel (Mendel Rosenblum)
  2107. Subject: Allspice crashes somemore
  2108. Date: Sun, 10 Feb 91 21:08:25 PST
  2109.  
  2110. This message is to record thre more crashes of allspice, all of the 
  2111. no-debug-must-power-cycle type. This is the fifth crash of this type
  2112. in the last 24 hours (Feb 9 22:05, Feb 10 12:40, Feb 10 16:14, Feb 10 19:30,
  2113. Feb 10, 20:30). All but the 16:15 produced no interesting messages. The 16:15 
  2114. at least produced a message:
  2115.  
  2116. MachPageFault: Current process is NIL!!  Trap pc is 0xf60a6670, addr 0xfffc8000.
  2117.  
  2118. The pc is in the byte swap code in RPC module. JohnH and I think that a 
  2119. garbage packet caused this crash.  There is (was ?) no validation of the
  2120. length field of the RPC header. If it was too large it could cause the
  2121. byte swap code to run off the end of the net recieve buffer. The first
  2122. non-valid address after the net receive buffers is 0xfffc8000. JohnH
  2123. put a patch in the uninstalled rpc module to check for this.
  2124.  
  2125. After the reboot  from the 160:30 crash, allspice hung up
  2126. during recovery. I pulled the
  2127. network interface and still nothing happened.  I typed a l1-t to check
  2128. the callback queue and sure enough the callbacks weren't being processed.
  2129. Time was going forward and the current time was a couple of minutes passed
  2130. the times in the callback queue.  It was like the callback interrupt wasn't
  2131. being processed.  I typed l1-a and  continued the machine and all the
  2132. callbacks were processed.  Weird!
  2133.  
  2134. After the 20:30 crash I backed out to the sprite 1.079 kernel.
  2135.  
  2136. The only crashes similar to this type was when the Jaguar board would 
  2137. get a bus error while processing an interrupt.  No message was produced
  2138. and the machine had to be powercycled.  My guess it somehow allspice
  2139. is getting a bus error during a interrupt handler.  Maybe it is
  2140. running into some problem in the net module.  With the jaguar problem
  2141. I was able to set a break point with the debugger in the panic() routine
  2142. and it would hit the break point correctly.  If this problem happens again
  2143. I'll give this a try.  
  2144.  
  2145.     Mendel
  2146.  
  2147.  
  2148. Log-Number: 30695
  2149. Subject: 2 more reboots
  2150. Date: Sun, 10 Feb 91 22:55:36 PST
  2151. From: Mary Baker <mgbaker>
  2152.  
  2153. I just rebooted allspice twice again.  Both times it got a -1 use count on a
  2154. stream and the first time, at least, it was going through repeated recovery
  2155. with crackle.  I've put crackle in the debugger.  Although allspice printed
  2156. out that it entered the debugger, it timed out with kgcore, so I was unable to
  2157. get core images for it.  At least I was able to reboot it with a watchdog
  2158. reset, rather than power cycling the horrid beast.
  2159.  
  2160. Mary
  2161.  
  2162.  
  2163. Log-Number: 30699
  2164. Subject: sage crash
  2165. Date: Mon, 11 Feb 91 12:56:38 PST
  2166. From: Mary Baker <mgbaker>
  2167.  
  2168. Sage died today in FsrmtFileClose with an exec ref count of -1.  We've been
  2169. seeing a lot of this recently.
  2170.  
  2171. Mary
  2172.  
  2173.  
  2174. Log-Number: 30701
  2175. Subject: vipw won't let me change some fields in master.passwd
  2176. Date: Mon, 11 Feb 91 14:25:09 PST
  2177. From: Mike Kupfer <kupfer>
  2178.  
  2179. A user asked me to change his password for him.  After doing so, I
  2180. noticed that "passwd" had changed a couple fields in master.passwd
  2181. from empty to "0".  I wasn't sure if this was a problem, so I tried
  2182. manually changing them back.  However, vipw would claim that I hadn't
  2183. made any changes, so it wouldn't update master.passwd.
  2184.  
  2185. mike
  2186.  
  2187.  
  2188. Log-Number: 30702
  2189. From: mendel (Mendel Rosenblum)
  2190. Subject: Two more allspice crash
  2191. Date: Mon, 11 Feb 91 21:10:52 PST
  2192.  
  2193. Allspice hung up two more times.  It didn't enter hit the panic breakpoint 
  2194. I had set.  We're in trouble.
  2195.  
  2196.     Mendel
  2197.  
  2198.  
  2199. Log-Number: 30704
  2200. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  2201. Date: Tue, 12 Feb 1991 17:15:01 PST
  2202. Subject: NIL ioHandlePtr
  2203.  
  2204.  
  2205. Two machines (espionage and arson) have crashed today with the assertion
  2206. filePtr->ioHandlePtr != (Fs_HandleHeader *) NIL failed.  Perhaps we
  2207. should bump up the priority of this bug before it gets too prevalent.
  2208. >From what I can determine from the code the ioHandlePtr should never be
  2209. NIL upon return from Fsio_DeencapStream, unless the status is not
  2210. SUCCESS.  Someone needs to take a better look.
  2211.  
  2212. John
  2213.  
  2214.  
  2215. Log-Number: 30708
  2216. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  2217. Date: Wed, 13 Feb 1991 14:17:23 PST
  2218. Subject: netEther.h
  2219.  
  2220.  
  2221. The file netEther.h contains constants defining the minimum and maximum
  2222. sizes of ethernet packets.  From reading the Lance manual it seems that
  2223. the minimum size is 64, and the maximum is 1518.  netEther.h lists the
  2224. minimum as 60 (I just changed it to 64) and the maximum as 1514.  Is
  2225. there any reason why these are 4 bytes off?
  2226.  
  2227. John
  2228.  
  2229.  
  2230. Log-Number: 30710
  2231. From: mendel (Mendel Rosenblum)
  2232. Subject: Re: Mail broken 
  2233. Date: Thu, 14 Feb 91 12:16:10 PST
  2234.  
  2235. > Return-Path: ouster
  2236. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  2237. >     id AA543527; Thu, 14 Feb 91 12:01:52 PST
  2238. > Date: Thu, 14 Feb 91 12:01:52 PST
  2239. > From: ouster (John Ousterhout)
  2240. > Message-Id: <9102142001.AA543527@sprite.Berkeley.EDU>
  2241. > To: bugs
  2242. > Subject: Mail broken
  2243. > I don't think that mail is getting into Allspice right now (I tried
  2244. > sending myself a message at Ginger and it didn't get through).  Can
  2245. > someone who knows about such things check out sendmail on Allspice?
  2246. >                     -John-
  2247.  
  2248. The ipServer appeared to be messed up. It could talk out but not receive 
  2249. connections.  I ran restartIPserver and everything appears to work.
  2250.  
  2251.     Mendel
  2252.  
  2253.  
  2254. Log-Number: 30711
  2255. Date: Fri, 15 Feb 91 12:50:41 PST
  2256. From: ouster (John Ousterhout)
  2257. Subject: Allspice crash
  2258.  
  2259. Whoops, I forgot to report this.  When I came in this morning,
  2260. Allspice was hanging RPC's from tyranny, but the RPCs weren't
  2261. timing out.  I took a look at Allspice, and its process table
  2262. was full:  lots of sendmail, mail, ftpd, and other processes.
  2263. I killed off a few sendmails to get back some processes, and
  2264. the process table situation seemed to improve, but tyranny
  2265. still wasn't getting any response from Allspice, and when I
  2266. tried "rpccmd -ping tyranny" from Allspice, then Allspice never
  2267. finished the command and I couldn't control-C or control-Z out
  2268. of the command.  At that point I decided things were just too
  2269. weird, so I sync-ed the disks and rebooted.
  2270.  
  2271.                     -John-
  2272.  
  2273.  
  2274. Log-Number: 30712
  2275. From: mendel (Mendel Rosenblum)
  2276. Subject: Assault crash hoses allspice
  2277. Date: Mon, 18 Feb 91 09:58:42 PST
  2278.  
  2279. When assault crashes allspice also suffers.  The problem appears to be
  2280. users with home directories on assault get mail and finger requests.
  2281. The sendmail and finger deamons that get forked to process the
  2282. request hang until assault is rebooted.  When I came in this 
  2283. morning allspice's process table was filled with sendmail and finger
  2284. processes.  Once the process table fills it hard to do anything with
  2285. the machine. I was able to kill off some of the processes remotely from
  2286. raid1 and get allspice usable again.
  2287.  
  2288.     Mendel
  2289.  
  2290.  
  2291. Log-Number: 30713
  2292. Date: Mon, 18 Feb 91 10:07:44 PST
  2293. From: shirriff (Ken Shirriff)
  2294. Subject: Re: Assault crash hoses allspice
  2295.  
  2296. Assault crashed and failed to end the debugger, so I had to
  2297. reboot it.  The console was repeatedly printing:
  2298. ICMP echo
  2299. Address error in load: Address 17 PC 800a33a0
  2300. Entering debugger with TLB load addr error
  2301.  
  2302.  
  2303. Log-Number: 30714
  2304. Subject: ftp gets confused about transfer mode
  2305. Date: Mon, 18 Feb 91 14:21:34 PST
  2306. From: Mike Kupfer <kupfer>
  2307.  
  2308. I got tripped up trying to retrieve a binary file from prep.  Here's
  2309. the sequence of events:
  2310.  
  2311.   (login)
  2312.   ftp> cd pub
  2313.   ftp> ls
  2314.   ftp> cd gnu
  2315.   ftp> ls
  2316.  
  2317. The last thing ftp tells me is
  2318.  
  2319.   226 Transfer complete.
  2320.  
  2321. My next command is
  2322.  
  2323.   ftp> binary
  2324.  
  2325. to which the response should be
  2326.  
  2327.   200 Type set to I.
  2328.  
  2329. Instead, I get
  2330.  
  2331.   Using ascii mode to transfer files.
  2332.  
  2333. And in fact the mode was still Ascii; when I fetched a .Z file, it got
  2334. corrupted.
  2335.  
  2336. I tried ftp'ing from okeeffe to prep and could not reproduce the bug. 
  2337. I tried ftp'ing from sage to arpa and could reproduce the bug. 
  2338. Therefore, it looks like the bug is in our ftp client.
  2339.  
  2340. The "ls" seems to be necessary to reproduce the bug.  If I do "binary"
  2341. as my first command, it works correctly.
  2342.  
  2343. This bug might be related to the random error messages I get before
  2344. I'm even able to type an ftp command, as in
  2345.  
  2346.   sage% ftp arpa
  2347.   Connected to ucbarpa.Berkeley.EDU.
  2348.   220 ucbarpa.Berkeley.EDU FTP server (Version 5.47 Sun Aug 6 07:56:21 GMT 1989) ready.
  2349.   Name (arpa:kupfer): anonymous
  2350.   331 Guest login ok, send ident as password.
  2351.   Password:
  2352.   230 Guest login ok, access restrictions apply.
  2353.   Remote system type is UNIX.
  2354.   usage: type [ ascii | binary | image | ebcdic | tenex ]
  2355.   Using ascii mode to transfer files.
  2356.   ftp> 
  2357.  
  2358. mike
  2359.  
  2360.  
  2361. Log-Number: 30715
  2362. Subject: rcp can create bogus hard links
  2363. Date: Mon, 18 Feb 91 16:07:17 PST
  2364. From: Mike Kupfer <kupfer>
  2365.  
  2366.  
  2367. I decided to copy all of my personal 1/4" archive tape onto an Exabyte
  2368. tape for easier access.  So I created /r1/kupfer and got Ron Choi to
  2369. copy the tape into hermes:/pic2/tmp/kufper [sic].  Ken has a hermes
  2370. account, so he cd'd to /r1/kupfer and did something like
  2371.  
  2372.   rcp -r hermes:/pic2/tmp/kufper .
  2373.  
  2374. There were some problems with unreadable files on hermes, so Ron
  2375. chmod'd them and Ken did another, more selective, rcp to bring over
  2376. the stragglers.  When I went to remove old files before making the new
  2377. tape, I found the following situation:
  2378.  
  2379.   sage% cd /r1/kupfer
  2380.   sage% ls -i
  2381.   155216 Mail/            101691 emacs/           149032 orc/
  2382.   199360 News/            117953 etc/             117975 preferences
  2383.   118027 Todo             133432 include/          29664 src/
  2384.   194912 amoeba/          117952 kufper/          117960 termcap
  2385.    76131 amusements/       73808 lib/              12424 tests/
  2386.   103424 bin/             131696 mach/            196280 xerox/
  2387.   117560 civ/              84352 man/
  2388.   sage% ls -i kufper
  2389.   155216 Mail/            101691 emacs/           117975 preferences
  2390.   199360 News/            117953 etc/              29664 src/
  2391.   118027 Todo             133432 include/         117960 termcap
  2392.   194912 amoeba/           73808 lib/              12424 tests/
  2393.    76131 amusements/      131696 mach/            196280 xerox/
  2394.   103424 bin/              84352 man/
  2395.   117560 civ/             149032 orc/
  2396.   sage% file kufper
  2397.   kufper: directory
  2398.   sage% ls -di /r1/kupfer
  2399.    66392 /r1/kupfer/
  2400.   sage% ls -ld amoeba
  2401.   drwxr-xr-x  3 kupfer        512 Feb 18 12:30 amoeba/
  2402.   sage% ls -al amoeba
  2403.   total 105
  2404.   drwxr-xr-x  3 kupfer        512 Feb 18 12:30 ./
  2405.   drwxrwxr-x 19 kupfer        512 Feb 18 11:37 ../
  2406.   -rw-r--r--  1 kupfer      61872 Feb 18 12:30 11.ps
  2407.   -rw-r--r--  1 kupfer      35655 Feb 18 12:30 11a.ps
  2408.  
  2409. Basically it looks like everything in kufper got an extra link to it,
  2410. put in /r1/kupfer.
  2411.  
  2412. mike
  2413.  
  2414.  
  2415. Log-Number: 30716
  2416. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  2417. Date: Mon, 18 Feb 1991 22:48:44 PST
  2418. Subject: ds5000 network bug found
  2419.  
  2420.  
  2421. It looks like part of the ds5000 network bug has been found.
  2422. The bug has been with us all along -- one of the minor changes I
  2423. made to the ds5000 network module made the bug deadly.  Here's what
  2424. happens.  When the network driver gets a receive interrupt it goes into
  2425. a loop processing the receive buffers.  If a buffer is marked as owned
  2426. by the host the routine Net_Input is called.  When Net_Input returns
  2427. the buffer pointer is incremented and the driver goes on to the next
  2428. buffer. Now suppose that allspice sends us one of those bogus ack
  2429. packets.  Rpc_Dispatch will reset the network interface.  When Net_Input
  2430. returns the driver blindly goes on to the next buffer, unaware that
  2431. the reset happened.  Now the software and hardware think different
  2432. buffers are the current buffer. In the current Lance implementation (sun4c)
  2433. the next receive interrupt will cause one of those "Bogus receive interrupt"
  2434. messages that will reset the chip.  This time the pointers get reset
  2435. correctly.  When I first did the ds5000 port I was getting a lot of those
  2436. bogus interrupts so I removed the reset since it was annoying and I
  2437. couldn't see the need for it. Now I know.  I changed the ds5000 driver
  2438. so that it includes a counter of the number of resets.  If this count
  2439. changes during the call to Net_Input the driver breaks out of the loop.
  2440.  
  2441. This fix doesn't explain the poison packets. I'm unable to come up
  2442. with a scenerio in which the transmit pointers get out of sync.
  2443. I'm inclined to believe that they may just be an artifact of resetting
  2444. the network interface during packet transmission since they seem
  2445. to happen when the network interface is reset a lot. I'll keep my eye
  2446. on it anyway.
  2447.  
  2448. John
  2449.  
  2450.  
  2451. Log-Number: 30717
  2452. Date: Tue, 19 Feb 91 13:54:32 PST
  2453. From: shirriff (Ken Shirriff)
  2454. Subject: Corrupted cache?
  2455.  
  2456. The cache on sassafras apparently got corrupted, changing a byte in one
  2457. file from 00 to 02.  Doing a "fscmd -f" restored the proper value.
  2458.  
  2459. I found this problem very disconcerting, because my simulator would die
  2460. on reading the bad value, when running on sassafras, but not on anything
  2461. else.
  2462.  
  2463. While I'm discussing strange bugs, the past two days violence has been
  2464. dead in the morning with a blank screen, when I come in.  It apparently
  2465. totally wedges up in the night.
  2466.  
  2467. Ken
  2468.  
  2469.  
  2470. Log-Number: 30718
  2471. Subject: decman's X started up over mine
  2472. Date: Tue, 19 Feb 91 17:24:40 PST
  2473. From: Mike Kupfer <kupfer>
  2474.  
  2475.  
  2476. There I was, happily working away on Sage, when all of a sudden the
  2477. screen went gray, covered by the standard monochrome background
  2478. pattern.  Then strange things started appearing on my screen: somebody
  2479. else's xterm... a mail icon... xphoon.  They all looked to be owned
  2480. by decman.  
  2481.  
  2482. Does our Sparcstation driver code refuse concurrent access to the
  2483. screen?  Does xinit do the right thing if the server can't start up? 
  2484. Is there a bug in decman's X startup script?  
  2485.  
  2486. mike
  2487.  
  2488.  
  2489. Log-Number: 30719
  2490. Date: Wed, 20 Feb 91 13:13:55 PST
  2491. From: shirriff (Ken Shirriff)
  2492. Subject: Violence is flaky
  2493.  
  2494. Violence suddenly wedged up again as I was using it.  It didn't respond
  2495. to L1-D or L1-A, so I couldn't figure out the problem.
  2496.  
  2497. Ken
  2498.  
  2499.  
  2500. Log-Number: 30720
  2501. Subject: rarp confusion
  2502. Date: Wed, 20 Feb 91 18:02:32 PST
  2503. From: Mike Kupfer <kupfer>
  2504.  
  2505.  
  2506. Bob Miller got kvetching so that we could give away subversion.  He
  2507. asked to keep subversion as his machine name, so I swapped the
  2508. ethernet addresses for subversion and kvetching in /etc/spritehosts. 
  2509. However, when I booted the new subversion, it still thought it was
  2510. kvetching.  I killed and restarted the arpd on allspice and rebooted
  2511. again.  It still thought it was kvetching.  I eventually killed the
  2512. arpd again and ran it -v (verbose) from Bob's office so I could see
  2513. what it was doing.  Of course, this time the machine came up as
  2514. subversion.
  2515.  
  2516. mike
  2517.  
  2518. P.S.  This probably isn't relevant to the bug, but while I had 
  2519. "arpd -v" running in Bob and Terry's office, I noticed a couple lines
  2520. of the form "{RARP,ARP} with unknown protocol type: 0x500".
  2521.  
  2522.  
  2523. Log-Number: 30721
  2524. From: mendel (Mendel Rosenblum)
  2525. Subject: Re: rarp confusion 
  2526. Date: Wed, 20 Feb 91 18:06:58 PST
  2527.  
  2528.  
  2529. > P.S.  This probably isn't relevant to the bug, but while I had 
  2530. > "arpd -v" running in Bob and Terry's office, I noticed a couple lines
  2531. > of the form "{RARP,ARP} with unknown protocol type: 0x500".
  2532.  
  2533. 0x500 is the Sprite IP protocol type.  The messages are from
  2534. Sprite machines doing ARPs and RARPs for resolving the Sprite id to
  2535. ethernet address mapping.
  2536.  
  2537.  
  2538.     Mendel
  2539.  
  2540.  
  2541. Log-Number: 30724
  2542. Subject: more questions about code segment management
  2543. Date: Wed, 20 Feb 91 22:19:45 PST
  2544. From: Mike Kupfer <kupfer>
  2545.  
  2546. (1) In FindCode (vmSeg.c), if vm_NoStickySegments is TRUE, then we
  2547. assume that there is no segment already associated with this file.  Is
  2548. there some other check that ensures that there isn't a process using
  2549. the segment?  (My understanding is that vm_NoStickySegments is a
  2550. proscriptive flag, saying "don't cache unused code segments".  Have I
  2551. got that right?)
  2552.  
  2553. (2) If a process in FindCode doesn't find a segment for the given
  2554. file, it marks the file--by setting the segment pointer to 0--to show
  2555. that it is about to give the file a segment.  If some other process
  2556. wants a segment for the same file, it notices the 0 segment pointer
  2557. and sleeps on codeSegCondition.  However, the only wakeup call on
  2558. codeSegCondition happens if the first process decides it's not going
  2559. to give the file a segment after all.  Doesn't this mean that if the
  2560. segment *is* set up, the second process will sleep forever?
  2561.  
  2562. mike
  2563.  
  2564.  
  2565. Log-Number: 30725
  2566. From: mendel (Mendel Rosenblum)
  2567. Subject: Re: more questions about code segment management 
  2568. Date: Thu, 21 Feb 91 10:09:48 PST
  2569.  
  2570.  
  2571. > (1) In FindCode (vmSeg.c), if vm_NoStickySegments is TRUE, then we
  2572. > assume that there is no segment already associated with this file.  Is
  2573. > there some other check that ensures that there isn't a process using
  2574. > the segment?  (My understanding is that vm_NoStickySegments is a
  2575. > proscriptive flag, saying "don't cache unused code segments".  Have I
  2576. > got that right?)
  2577.  
  2578. Isn't there a saying like "Beware of the path not taken"  or something like 
  2579. that.  In Sprite this translates to if code that is not normally executed
  2580. looks like it wont work it is probably because it wont.  Since we
  2581. always run with vm_NoStickySegments == FALSE, it would not surprise me
  2582. if it didn't work correctly set it TRUE.  Anyway you are right, it looks 
  2583. from the code that the "vm_NoStickySegments" really means "vm_NoShareCodeSegments"
  2584.  
  2585. > (2) If a process in FindCode doesn't find a segment for the given
  2586. > file, it marks the file--by setting the segment pointer to 0--to show
  2587. > that it is about to give the file a segment.  If some other process
  2588. > wants a segment for the same file, it notices the 0 segment pointer
  2589. > and sleeps on codeSegCondition.  However, the only wakeup call on
  2590. > codeSegCondition happens if the first process decides it's not going
  2591. > to give the file a segment after all.  Doesn't this mean that if the
  2592. > segment *is* set up, the second process will sleep forever?
  2593.  
  2594. Although it will not be awoken promptly, it will not wait forever.  The
  2595. codeSegCondition is broadcasted on during railed exec().  I believe that
  2596. the csh causes lots of failed exec() while looking down the search path.
  2597. Also, recovery broadcasts on all conditions. 
  2598.  
  2599.     Mendel
  2600.  
  2601.  
  2602. Log-Number: 30726
  2603. Subject: questions about Vm_MakeAccessible
  2604. Date: Thu, 21 Feb 91 12:01:20 PST
  2605. From: Mike Kupfer <kupfer>
  2606.  
  2607. My understanding of Vm_MakeAccessible is that it is used to verify
  2608. that a particular part of a process's virtual address space is
  2609. accessible.  It then "locks" this region to ensure that it remains
  2610. accessible until Vm_MakeUnAccessible is called.  
  2611.  
  2612. Two questions:
  2613.  
  2614. (1) Is the above summary correct?
  2615.  
  2616. (2) Why doesn't Vm_MakeAccessible do anything with the accessType
  2617. parameter that is passed to it?
  2618.  
  2619. mike
  2620.  
  2621.  
  2622. Log-Number: 30727
  2623. Subject: multiprocessor race condition in exec code?
  2624. Date: Thu, 21 Feb 91 16:38:07 PST
  2625. From: Mike Kupfer <kupfer>
  2626.  
  2627.  
  2628. If SetupVM (in procExec.c) finds a heap that doesn't end on a page
  2629. boundary, it pages in the end of the heap and zeroes out the rest of
  2630. the page.  
  2631.  
  2632. Is there any locking of the page there, or is there the (admittedly
  2633. small) potential in a multiprocessor system for the page to get
  2634. stolen between the Vm_PageIn and the bzero?
  2635.  
  2636. mike
  2637.  
  2638.  
  2639. Log-Number: 30728
  2640. Date: Thu, 21 Feb 91 16:52:46 PST
  2641. From: elm (ethan miller)
  2642. Subject: ^Z problem in rn on sparcStation
  2643.  
  2644. ^Z no longer suspends rn on the sparcstation.  I haven't checked ds3100
  2645. for this bug yet.
  2646.  
  2647. ethan
  2648.  
  2649.  
  2650. Log-Number: 30729
  2651. From: mendel (Mendel Rosenblum)
  2652. Subject: assault crashes with same problem as last time
  2653. Date: Fri, 22 Feb 91 11:36:38 PST
  2654.  
  2655. Assault crashed with the same problem as its last crash.  The 
  2656. console was repeatedly printing:
  2657.  
  2658. ICMP echo
  2659. Address error in load: Address 17 PC 800a33a0
  2660. Entering debugger with TLB load addr error
  2661.  
  2662. I rebooted it.
  2663.  
  2664.     Mendel
  2665.  
  2666.  
  2667. Log-Number: 30731
  2668. Subject: pdev.h versus pdev.new.h
  2669. Date: Sun, 24 Feb 91 16:52:43 PST
  2670. From: Mike Kupfer <kupfer>
  2671.  
  2672. In /sprite/lib/include/dev one finds pdev.h and pdev.new.h.  Are both
  2673. necessary, or can one of them be deleted?
  2674.  
  2675. mike
  2676.  
  2677.  
  2678. Log-Number: 30732
  2679. Date: Mon, 25 Feb 91 10:02:53 PST
  2680. From: tve (Thorsten von Eicken)
  2681. Subject: hit ^Z at the login prompt ...
  2682.  
  2683. and the login program goes into SUSP state. Pretty har to get out of if
  2684. you can't login...
  2685.     TvE
  2686.  
  2687.  
  2688. Log-Number: 30733
  2689. Subject: Mail delivery problems?
  2690. Date: Tue, 26 Feb 91 00:00:55 PST
  2691. From: Mary Baker <mgbaker>
  2692.  
  2693. Is this just happening to me?  Twice tonight my mail icon has beeped and also
  2694. csh has said I have new mail.  I go to read it, and it's not there.  If
  2695. there really was some mail, this is disconcerting.
  2696.  
  2697.  
  2698.  
  2699.  
  2700. Mary
  2701.  
  2702.  
  2703. Log-Number: 30734
  2704. Date: Thu, 28 Feb 91 16:22:35 PST
  2705. From: elm (ethan miller)
  2706. Subject: problems booting raid2
  2707.  
  2708. For the last day or two, we've been unable to boot raid2, either with
  2709. the kernel I'm writing or with a standard sun4 kernel.  The symptoms are:
  2710. (raid2 prints this stuff)
  2711.  
  2712. MEMORY x bytes allocated for kernel
  2713. <open> 2/28/91 15:37:24 noname (67) RPC timed-out
  2714. open of "cmds/initsprite" waiting for recovery
  2715. 2/28/91 15:37:36 noname (67) - recovering handles
  2716. 2/28/91 15:37:37 noname (67) Recovery complete 2 handles reopened
  2717. Fsprefix_OpenCheck waiting for recovery
  2718. Fsprefix_OpenCheck ok
  2719.  
  2720. At this point, raid2 hangs.  It doesn't enter the debugger or do
  2721. anything else; it just hangs.  raid2 has passed powerup selftest,
  2722. so it's not likely to be a hardware problem.  The hardware
  2723. configuration has not changed since we were last able to
  2724. boot it.
  2725.  
  2726. This is a rather urgent bug; we can't work on Ultranet software
  2727. if we can't boot raid2.
  2728.  
  2729. ethan
  2730.  
  2731.  
  2732. Log-Number: 30736
  2733. Subject: spritemon covers up scale
  2734. Date: Fri, 01 Mar 91 19:04:39 PST
  2735. From: Mike Kupfer <kupfer>
  2736.  
  2737. Unless the measured number is bursty, spritemon tends to obscure the
  2738. horizontal scale lines, which means you can't really tell what the
  2739. value is that you're getting (at least on a monochrome display).  It's
  2740. all one big black blob.
  2741.  
  2742. Here are a couple possible fixes:
  2743.  
  2744. Option #1: use some sort of XOR scheme, so that the scale lines will
  2745. show up video-inverted.
  2746.  
  2747. Option #2: when the vertical lines get to the right hand edge, scroll
  2748. back to the middle of the window, the way the regular xload (e.g., on
  2749. ginger) does.
  2750.  
  2751. mike
  2752.  
  2753.  
  2754. Log-Number: 30737
  2755. Subject: pager program
  2756. Date: Fri, 01 Mar 91 23:06:51 PST
  2757. From: Mary Baker <mgbaker>
  2758.  
  2759. There's no man page for the pager program in /sprite/cmds.  I'll write one.
  2760. But where is the soure for this program?  It's not in /sprite/src/cmds...
  2761.  
  2762. Mary
  2763.  
  2764.  
  2765. Log-Number: 30740
  2766. Subject: problems booting sun3
  2767. Date: Sun, 03 Mar 91 17:49:07 PST
  2768. From: Mike Kupfer <kupfer>
  2769.  
  2770. Murder is taking an excessively long time to boot.  From the etherfind
  2771. dump, it looks like murder is dropping a lot of packets, causing a
  2772. 2-second pause for each dropped packet.  Is it possible that allspice
  2773. is simply pushing the packets too fast?
  2774.  
  2775. mike
  2776. --
  2777. (allspice sends block 0x5b)
  2778. 602.48   558  udp allspice.Berkel murder.Berkeley       1042       1348
  2779.  08 00 20 00 fa 48 08 00 20 00 05 6d 08 00 45 00
  2780.  02 20 00 d5 00 00 1e 11 6d 93 80 20 96 1b 80 20
  2781.  96 09 04 12 05 44 02 0c 9a d1 00 03 00 5b 00 0c
  2782.  4a 80 66 0e 22 2a 00 04 4c 6b 18 00 00 0c 4a 80
  2783.  67 0a 42 94 20 3c 00 07 00 07 60 68 42 83 42 80
  2784.  4a aa 00 04 6f 5c 78 02 2d 44 ff a4 42 ae ff ac
  2785.  28 03 d8 aa 00 08 2d 44 ff a8 28 03 d8 92 2d 44
  2786.  ff b4 28 2a 00 04 b8 ab
  2787.  
  2788. (murder acks 5b)
  2789. 602.50    60  udp murder.Berkeley allspice.Berkel       1348       1042
  2790.  08 00 20 00 05 6d 08 00 20 00 fa 48 08 00 45 00
  2791.  00 20 00 00 00 00 ff 11 8f 67 80 20 96 09 80 20
  2792.  96 1b 05 44 04 12 00 0c 00 00 00 04 00 5b 6e 33
  2793.  2e 6d 64 2f 6b 75 70 66 65 72 00 6f
  2794.  
  2795. (allspice sends block 5c)
  2796. 602.50   558  udp allspice.Berkel murder.Berkeley       1042       1348
  2797.  08 00 20 00 fa 48 08 00 20 00 05 6d 08 00 45 00
  2798.  02 20 00 d6 00 00 1e 11 6d 92 80 20 96 1b 80 20
  2799.  96 09 04 12 05 44 02 0c 27 02 00 03 00 5c 6e 6f
  2800.  74 20 66 6f 75 6e 64 00 53 65 65 6b 20 65 72 72
  2801.  6f 72 00 44 4d 41 20 74 69 6d 65 6f 75 74 20 65
  2802.  72 72 6f 72 00 57 72 69 74 65 20 70 72 6f 74 65
  2803.  63 74 65 64 00 43 6f 72 72 65 63 74 61 62 6c 65
  2804.  20 64 61 74 61 20 63 68
  2805.  
  2806. (murder acks 5b after timing out)
  2807. 606.50    60  udp murder.Berkeley allspice.Berkel       1348       1042
  2808.  08 00 20 00 05 6d 08 00 20 00 fa 48 08 00 45 00
  2809.  00 20 00 00 00 00 ff 11 8f 67 80 20 96 09 80 20
  2810.  96 1b 05 44 04 12 00 0c 00 00 00 04 00 5b 6e 33
  2811.  2e 6d 64 2f 6b 75 70 66 65 72 00 6f
  2812.  
  2813. (allspice resends 5c)
  2814. 606.50   558  udp allspice.Berkel murder.Berkeley       1042       1348
  2815.  08 00 20 00 fa 48 08 00 20 00 05 6d 08 00 45 00
  2816.  02 20 00 d7 00 00 1e 11 6d 91 80 20 96 1b 80 20
  2817.  96 09 04 12 05 44 02 0c 27 02 00 03 00 5c 6e 6f
  2818.  74 20 66 6f 75 6e 64 00 53 65 65 6b 20 65 72 72
  2819.  6f 72 00 44 4d 41 20 74 69 6d 65 6f 75 74 20 65
  2820.  72 72 6f 72 00 57 72 69 74 65 20 70 72 6f 74 65
  2821.  63 74 65 64 00 43 6f 72 72 65 63 74 61 62 6c 65
  2822.  20 64 61 74 61 20 63 68
  2823.  
  2824. (murder acks 5c)
  2825. 606.52    60  udp murder.Berkeley allspice.Berkel       1348       1042
  2826.  08 00 20 00 05 6d 08 00 20 00 fa 48 08 00 45 00
  2827.  00 20 00 00 00 00 ff 11 8f 67 80 20 96 09 80 20
  2828.  96 1b 05 44 04 12 00 0c 00 00 00 04 00 5c 6e 33
  2829.  2e 6d 64 2f 6b 75 70 66 65 72 00 6f
  2830.  
  2831.  
  2832.  
  2833. Log-Number: 30741
  2834. Subject: meaning of vmStat.minFSPages
  2835. Date: Sun, 03 Mar 91 18:35:34 PST
  2836. From: Mike Kupfer <kupfer>
  2837.  
  2838.  
  2839. I noticed that vmStat.minFSPages is always zero.  This is because it
  2840. is initialized to zero, and of course no cache size is ever less than
  2841. zero.
  2842.  
  2843. I fixed the VM code to initialize minFSPages to INT_MAX and hacked
  2844. Vm_MapBlock so that it would update minFSPages as well as maxFSPages
  2845. (so that minFSPages would always have a "truthful" value).  Well, if I
  2846. had thought about it for another 30 seconds, I would have realized
  2847. that this isn't particularly useful, either, since it means that
  2848. minFSPages will always be 1.
  2849.  
  2850. So, it seems like the most useful number would be obtained by only
  2851. updating minFSPages in Vm_UnmapBlock.  This leads to the question of
  2852. what value minFSPages should have before Vm_UnmapBlock is ever called
  2853. (i.e., right after booting).  Should it be INT_MAX or 0?  (If it's
  2854. INT_MAX, I'll probably want to hack vmstat to understand that, which
  2855. is fine with me, but I'd like to first get consensus on what the value
  2856. should be.)
  2857.  
  2858. mike
  2859.  
  2860.  
  2861. Log-Number: 30744
  2862. From: mendel (Mendel Rosenblum)
  2863. Subject: Re: meaning of vmStat.minFSPages 
  2864. Date: Mon, 04 Mar 91 10:06:07 PST
  2865.  
  2866. I believe that the memory occupied by the file cache is limit 
  2867. with min and max values in the file cache code.   The relavent 
  2868. variables from fsStat.h are:
  2869.  
  2870.     /*
  2871.      * Cache size numbers.
  2872.      */
  2873.     unsigned int minCacheBlocks;    /* The minimum number of blocks that
  2874.                       * can be in the cache. */
  2875.     unsigned int maxCacheBlocks;    /* The maximum number of blocks that
  2876.                       * can be in the cache. */
  2877.     unsigned int maxNumBlocks;        /* The maximum number of blocks that
  2878.                      * can ever be in the cache. */
  2879.     unsigned int numCacheBlocks;    /* The actual number of blocks that
  2880.                      * are in the cache. */
  2881.     unsigned int numFreeBlocks;        /* The number of cache blocks that
  2882.                      * aren't being used. */
  2883.  
  2884.  
  2885. Mendel
  2886.  
  2887.  
  2888. Log-Number: 30743
  2889. Date: Mon, 4 Mar 91 09:45:43 PST
  2890. From: root (The Sprite God)
  2891. Subject: /pcs/tic broken?
  2892.  
  2893. I have problems accessing /pcs/tic, commands just hang. It's in the
  2894. prefix table, but can't get to it. Can someone please look into
  2895. that?
  2896.     TvE
  2897.  
  2898.  
  2899. Log-Number: 30745
  2900. From: mendel (Mendel Rosenblum)
  2901. Subject: Test_PrintOut is a NOP on sun4 
  2902. Date: Mon, 04 Mar 91 10:48:19 PST
  2903.  
  2904.  
  2905. The routine Test_PrintOut() in the sys module has some problems.  
  2906. Besides violating the coding convention with its name (should start with Sys_),
  2907. it was written in a very non-portable way.  Because of this someone
  2908. ifdef'ed it to just return on the sun4.  This is unfortunate because
  2909. initsprite uses Test_PrintOut() to report errors if it can't get 
  2910. /dev/console to work.  I patched Test_PrintOut() to work on the 
  2911. sun4.  
  2912.  
  2913.     Mendel
  2914.  
  2915. ps. A short flame:
  2916.     Ifdef'ing a routine out for a single machine type without adding a warning 
  2917.     printf can seriously waste someone's time. Commenting the act with
  2918.     "What are these routines for?" does little to improve the situation.
  2919.  
  2920.  
  2921. Log-Number: 30746
  2922. Subject: unsigned times in Fscache_Block
  2923. Date: Mon, 04 Mar 91 13:13:37 PST
  2924. From: Mike Kupfer <kupfer>
  2925.  
  2926. Is there some reason why timeDirtied and timeReferenced are unsigneds
  2927. (in Fscache_Block)?  Most time values are signed.  Also, making
  2928. timeReferenced unsigned leads to strange behavior if the VM bias is
  2929. turned off.
  2930.  
  2931. mike
  2932.  
  2933.  
  2934. Log-Number: 30747
  2935. Date: Mon, 4 Mar 91 13:29:43 PST
  2936. From: tve (Thorsten von Eicken)
  2937. Subject: LFS disk full limit too low
  2938.  
  2939. .. at least it seems to me. It says disk full on /pcs:
  2940. Prefix     Server       KBytes       Used      Avail    % Used
  2941. /pcs       anise       1013760     676355     236029      74%
  2942. and there are more than 200 Megs unused. Seems like a bit too much, doesn't
  2943. it?
  2944.     TvE
  2945.  
  2946.  
  2947. Log-Number: 30748
  2948. From: mendel (Mendel Rosenblum)
  2949. Subject: Re: problems booting raid2 
  2950. Date: Mon, 04 Mar 91 13:35:32 PST
  2951.  
  2952. > Date: Thu, 28 Feb 91 16:22:35 PST
  2953. > From: elm (ethan miller)
  2954. > To: bugs@sprite.Berkeley.EDU
  2955. > Subject: problems booting raid2
  2956. > For the last day or two, we've been unable to boot raid2, either with
  2957. > the kernel I'm writing or with a standard sun4 kernel.  The symptoms are:
  2958. > (raid2 prints this stuff)
  2959. > MEMORY x bytes allocated for kernel
  2960. > ...
  2961. > At this point, raid2 hangs.  It doesn't enter the debugger or do
  2962. > anything else; it just hangs.    
  2963.  
  2964. It appears that the  machine is hanging up very early in the
  2965. startup of initsprite.  My guess is it is hanging trying to
  2966. open /dev/console.  This is probably related to a known bug 
  2967. in the serial line driver for the sun. (See bugs number 01574,
  2968. 01626, and 01627).  If you try to open a serial line that doesn't
  2969. have the proper RS232 signals asserted it will hang the machine
  2970. by going into an infinite interrupt loop.  The problem is the
  2971. serial line driver doesn't properly ack certain types of interrupts.
  2972.  
  2973. > raid2 has passed powerup selftest,
  2974. > so it's not likely to be a hardware problem.  
  2975.  
  2976. If you believe this there is a nice red bridge near my apartment I
  2977. can get you a really good deal on...
  2978.  
  2979. > The hardware
  2980. > configuration has not changed since we were last able to
  2981. > boot it.
  2982.  
  2983. This turns out to be false.  Broads were switched. More importantly,
  2984. the connectors hooking up the console to the serial line port
  2985. were changed.
  2986.  
  2987. > This is a rather urgent bug; we can't work on Ultranet software
  2988. > if we can't boot raid2.
  2989.  
  2990. The easiest way to get raid2 back online is to restore the cable 
  2991. and terminal setup to the one that worked.
  2992.  
  2993. > ethan
  2994.  
  2995.     Mendel
  2996.  
  2997.  
  2998. Log-Number: 30749
  2999. Date: Mon, 4 Mar 91 15:33:58 PST
  3000. From: bmiller (Bob Miller)
  3001. Subject: printer problem
  3002.  
  3003.  
  3004. It seems that our printer, lw533, is hung.  lpq on my machine shows 4 jobs
  3005. waiting.  lpq on shallot, which drives the printer, shows no entries.  HELP!!
  3006.  
  3007.  
  3008. Log-Number: 30750
  3009. Subject: Re: printer problem 
  3010. Date: Mon, 04 Mar 91 15:42:31 PST
  3011. From: Mike Kupfer <kupfer>
  3012.  
  3013. I did "lpc restart lw533", which seems to have unwedged things.  The
  3014. daemon had been running on mayhem.
  3015.  
  3016. mike
  3017.  
  3018.  
  3019. Log-Number: 30751
  3020. Date: Mon, 4 Mar 91 17:12:51 PST
  3021. From: sethg (Seth Copen Goldstein)
  3022. Subject: my machine is being consumed by sprite
  3023.  
  3024. All day long response time has been pretty bad.
  3025.  
  3026. this is pretty typical:
  3027.  
  3028. roar:/pcs/tic/tam/tlc/002-sethg-08> ps -au | sort +2 -3
  3029. USER     PID   %CPU %MEM  SIZE   RSS STATE   TIME PR COMMAND
  3030. decman   75439  0.0  1.5   276   244 RWAIT   0:02    -csh 
  3031. decman   9542d  0.0  1.3   244   216 DEBUG   0:00    bin-spriteds/tl2ncube ...
  3032. decman   c542e  0.0  1.3   240   212 DEBUG   0:00    bin-spriteds/tl2ncube ...
  3033. root      5434  0.0  0.0   168     0 WAIT    0:00    login -h ...
  3034. root     1540b  0.0  ---   ---   --- EXIT    0:00    cmds/initsprite -b ...
  3035. root     15418  0.0  0.8   280   124 RWAIT   0:50    /sprite/daemons/migd -D ...
  3036. root     1541b  0.0  0.0   324     0 RWAIT   0:00    sendmail -bd 
  3037. root     1541d  0.0  0.5   120    84 WAIT    0:24    /sprite/daemons/cron 
  3038. root     1541f  0.0  0.0   212     0 RWAIT   0:01    /sprite/daemons/lpd 
  3039. root     45412  0.0  0.0   172     0 WAIT    0:01    /sprite/cmds.$MACHINE/lo...
  3040. root     45417  0.0  0.6   176   104 WAIT    0:17    /local/cmds/getcounters ...
  3041. root     6540f  0.0  0.0   140     0 RWAIT   0:01    /sprite/daemons/inetd ...
  3042. root     75433  0.0  0.6   168    96 RWAIT   0:03    rlogind 
  3043. sethg    25422  0.0  0.6   848   100 RWAIT   0:02    xterm -n xterm_bot ...
  3044. sethg    25427  0.0  1.0   260   156 RWAIT   0:02    csh 
  3045. sethg    25438  0.0  0.6   844   100 RWAIT   0:00    /X11/R4/cmds.ds3100/xter...
  3046. sethg    2544d  0.0  1.0   760   172 RWAIT   0:01    xcal -geom 137x17+440+5 
  3047. sethg    3543c  0.0  0.6   576   104 RWAIT   0:02    xbiff -geom 48x48+51-0 
  3048. sethg    45436  0.0  0.4   112    64 WAIT    0:01    /emacs/cmds/loadst -n 60 
  3049. sethg    55416  0.0  0.8  1016   136 RWAIT   0:02    xterm -n xterm_top ...
  3050. sethg    6541a  0.0  0.6   848   100 RWAIT   0:01    xterm -n xterm_top ...
  3051. sethg    6543f  0.0  1.0   260   156 WAIT    0:01    -csh 
  3052. sethg    6544c  0.0  0.8   568   124 RWAIT   0:01    xclock -rv -update 60 ...
  3053. sethg    75410  0.0  0.6   844   100 RWAIT   0:01    xterm -title login ...
  3054. sethg    7543a  0.0  0.0   148     0 RWAIT   0:00    rlogin mammoth 
  3055. sethg    75455  0.0  1.0   224   156 WAIT    0:00    /users/sethg/.xinitrc ...
  3056. sethg    85411  0.0  1.0   232   156 WAIT    0:00    /users/sethg/.xsetup -f ...
  3057. sethg    8541c  0.0  1.0   256   156 RWAIT   0:02    csh 
  3058. sethg    9541e  0.0  0.9  1188   140 RWAIT   0:03    xterm -n xterm_bot ...
  3059. sethg    95420  0.0  1.3   796   220 RWAIT   0:02    xpostit -geom 64x10+476+0 
  3060. sethg    95456  0.0  2.6   744   424 RWAIT   0:02    xconsole -unmapped 
  3061. sethg    9545d  0.0  0.8  1012   132 RWAIT   0:01    xterm -title login ...
  3062. sethg    a5435  0.0  2.3  1068   384 RWAIT   0:00    emacs -geometry 80x65-8-8 
  3063. sethg    a5451  0.0  0.0   168     0 WAIT    0:00    xinit 
  3064. sethg    a545e  0.0  1.8   488   292 RWAIT   0:09    twm 
  3065. sethg    b543b  0.0  0.0   148     0 RWAIT   0:00    rlogin mammoth 
  3066. sethg    f544f  0.0  1.0   256   156 RWAIT   0:01    csh -i 
  3067. sethg    65437  0.1  1.4  1016   224 RWAIT   0:01    /X11/R4/cmds.ds3100/xter...
  3068. sethg    35449  0.2  1.1   700   188 RWAIT   0:13    spritemon -geom ...
  3069. sethg    5542b  0.2  2.5  1068   408 RWAIT   0:12    emacs -geometry 80x65-8-8 
  3070. sethg    4542c  0.3  1.4   260   228 WAIT    0:03    /sprite/cmds/csh -i 
  3071. sethg     544a  0.4  0.9   552   140 RWAIT   0:10    xeyes -geom 48x48+206-0 
  3072. sethg    95448  1.0  0.4   328    72 WAIT    0:00    sort +2 -3 
  3073. sethg    45447  1.2  1.0   248   164 RUN     0:00    ps -au 
  3074. sethg    a5452 11.0  6.0  1292   976 RWAIT   2:59    /X11/R4/cmds/Xmfbpmax :0 
  3075. root     5540d 16.4  4.6   984   748 READY  25:12    /sprite/daemons/ipServer 
  3076. sethg    95413  2.5  8.1  7740  1332 RWAIT   1:36    emacs -geometry 80x65-8-8 
  3077. roar:/pcs/tic/tam/tlc/002-sethg-08> 
  3078.  
  3079. it seems that root is getting alot of the machine alot of the time.  What is
  3080. wrong?
  3081.  
  3082.  
  3083. Log-Number: 30752
  3084. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  3085. Date: Tue, 5 Mar 1991 10:21:46 PST
  3086. Subject: Re: my machine is being consumed by sprite
  3087.  
  3088.  
  3089. Offhand I don't notice peculiar with your "ps".  If your response is
  3090. bad perhaps there is something else wrong.  Were there any messages
  3091. in your syslog?
  3092.  
  3093. John
  3094.  
  3095.  
  3096. Log-Number: 30753
  3097. Subject: Re: my machine is being consumed by sprite 
  3098. Date: Tue, 05 Mar 91 11:21:54 PST
  3099. From: Mike Kupfer <kupfer>
  3100.  
  3101. Allspice was sludgy at least part of the day (I noticed a lot of
  3102. timed-out RPCs).  Ken killed a runaway rn on allspice and performance
  3103. seemed to get a lot better.
  3104.  
  3105. mike
  3106.  
  3107.  
  3108. Log-Number: 30755
  3109. From: mendel (Mendel Rosenblum)
  3110. Subject: Re: printer crashes sun3 and sun4 
  3111. Date: Tue, 05 Mar 91 12:32:28 PST
  3112.  
  3113.  
  3114. > Our printerr regularly crashes the machine it's attached to. This
  3115. > happens about once a day.
  3116. > Currently lw44 is hooked up to boing and from time to time
  3117. > the syslog says "receiver overrun on /dev/serialB" and then
  3118. > everything is dead. The printer used to be hooked up to
  3119. > hoot (sun3) and the machine often hang (we never saw the
  3120. > syslog). HELP! this is a pain! Does thi happen to you guys too?
  3121. >     TvE
  3122.  
  3123. Can you give more details that "regularly crashes"? Does it go into the
  3124. debugger?   Do you think that it is the known problem with the serial
  3125. line driver hanging in an infinite interrupt loop?  You can test for
  3126. this by typing l1-a and continuing the machine from the monitor.  This
  3127. should clear the problem.  The only time I've seen larceny (the machine
  3128. driving lw477) hang up is when the serial line falls out of the printer.
  3129. Of course, we only have LaserWriter 0s and not LaserWriter 2s.  
  3130.  
  3131.     Mendel
  3132.  
  3133.  
  3134. Log-Number: 30756
  3135. From: tve (Thorsten von Eicken)
  3136. Subject: Re: printer crashes sun3 and sun4 
  3137. Date: Tue, 05 Mar 91 13:22:22 PST
  3138.  
  3139. The machine "stops". No message about entering the debugger, no other message
  3140. than the receiver overrun in the syslog. L1-A followed by C didn't do any
  3141. good the last time I tried, I will try again. The cable doesn't fall out
  3142. of the printer. Back when the printer was on a sun3 and that crashed, L1-A
  3143. worked but the keyboard didn't anymore and we has to use the reset switch.
  3144.     TvE
  3145.  
  3146.  
  3147. Log-Number: 30757
  3148. Date: Tue, 5 Mar 91 15:00:50 PST
  3149. From: elm (ethan miller)
  3150. Subject: bug in tcsh
  3151.  
  3152. About one in three or four times I start a tcsh, it dies with the error
  3153. message:
  3154. "MachPageFault: Bus error in user proc xxxxx, PC = 1e208, addr = 0 BR Reg 80"
  3155. It's always the same address.  I've gotten it to do this twice under
  3156. gdb (using tcsh -i), but I can't get a backtrace or any other hint of
  3157. why tcsh is dying this way.  The problem only occurs on the sun4c; I
  3158. have never seen it happen on the Sun-4 or any Decstation.  Any ideas
  3159. on how to track this bug down?  It's been around for months through
  3160. various OS releases.
  3161.  
  3162. ethan
  3163.  
  3164.  
  3165. Log-Number: 30758
  3166. Subject: Re: bug in tcsh 
  3167. Date: Tue, 05 Mar 91 15:08:38 PST
  3168. From: Mary Baker <mgbaker>
  3169.  
  3170. Why does it give you no backtrace?  Are you using the tcsh in
  3171. /attcmds/tcsh/sun4.md/tcsh for debugging?  It still has the symbol
  3172. table.
  3173.  
  3174.  
  3175. Mary
  3176.  
  3177.  
  3178. Log-Number: 30759
  3179. From: mendel (Mendel Rosenblum)
  3180. Subject: Disk errors in /pcs/tic
  3181. Date: Tue, 05 Mar 91 17:19:27 PST
  3182.  
  3183.  
  3184. The disk containing /pcs/tic appears to be in trouble. It can no longer
  3185. write several sectors that contain file descriptors. The errors are:
  3186.  
  3187. SCSI Disk SII#0 Target 4 LUN 0 error: media error - info bytes 0x0 0x0 0x27 0x98
  3188. SCSI Disk SII#0 Target 4 LUN 0 error: media error - info bytes 0x0 0x0 0x27 0x9c
  3189. SCSI Disk SII#0 Target 4 LUN 0 error: media error - info bytes 0x0 0x0 0x43 0xe0
  3190. SCSI Disk SII#0 Target 4 LUN 0 error: media error - info bytes 0x0 0x0 0x43 0xe1
  3191. SCSI Disk SII#0 Target 4 LUN 0 error: media error - info bytes 0x0 0x0 0x47 0x98
  3192. SCSI Disk SII#0 Target 4 LUN 0 error: media error - info bytes 0x0 0x0 0x47 0x99
  3193.  
  3194. I was able to read these sectors but the writes fail. 
  3195.  
  3196.     Mendel
  3197.  
  3198.  
  3199. Log-Number: 30763
  3200. Date: Wed, 6 Mar 91 14:39:47 PST
  3201. From: shirriff (Ken Shirriff)
  3202. Subject: Allspice crash
  3203.  
  3204. Allspice seemed to wedge up in consistency action with raid1.  I tried
  3205. to figure out what it was waiting on, but found my L1-i function has a
  3206. bug, which killed allspice, so I rebooted.
  3207.  
  3208.  
  3209. Log-Number: 30764
  3210. Date: Thu, 7 Mar 91 09:07:35 PST
  3211. From: ouster (John Ousterhout)
  3212. Subject: Assault crash
  3213.  
  3214. Assault was mostly catatonic this morning when I came in (responded to
  3215. various L1- commands, but not to other operations at the keyboard or
  3216. to network packets).  I rebooted it.
  3217.                     -John-
  3218.  
  3219.  
  3220. Log-Number: 30765
  3221. Subject: rpchist: should it work?
  3222. Date: Thu, 07 Mar 91 11:44:53 PST
  3223. From: Mike Kupfer <kupfer>
  3224.  
  3225.  
  3226. I fixed rpchist so that it would compile.  However, when I tried
  3227. running it (turn it on, read some mail, turn it off), it wouldn't dump
  3228. any counts out.  Does anyone know if it's supposed to work?  (I notice
  3229. it's not currently installed in /sprite/cmds.)  If it doesn't work,
  3230. should we move it out of /sprite/src/cmds?
  3231.  
  3232. mike
  3233.  
  3234.  
  3235. Log-Number: 30766
  3236. From: mendel (Mendel Rosenblum)
  3237. Subject: System-wide hangup - anise rebooted
  3238. Date: Fri, 08 Mar 91 12:01:18 PST
  3239.  
  3240. Anise was stricken with the bug that caused the callback queue to
  3241. quit being procssed.  This caused anise to hang RPCs to it and
  3242. run out of RPC servers because it uses callbacks to reclaim 
  3243. servers after use.  A couple of the RPCs it hung were consistency
  3244. call backs from allspice.  This caused RPCs to allspice to be hung.
  3245. This made to hard to get any work done.  I halted and rebooted anise 
  3246. and everything became unwedged for a few seconds before allspice went
  3247. into a infinite loop printing the message:
  3248.  
  3249. Client 80 dropped 30 write-back & invalidate requests for "userLog" <10,82857>
  3250.  
  3251. I "kmsg -d" boing and everything cleared up.   Big fun.
  3252.  
  3253.     Mendel
  3254.  
  3255.  
  3256. Log-Number: 30767
  3257. Subject: allspice didn't boot; boot error messages
  3258. Date: Fri, 08 Mar 91 20:42:42 PST
  3259. From: Mike Kupfer <kupfer>
  3260.  
  3261. Someone rebooted allspice just before we went to Raleighs.  (I'll let
  3262. them explain what had happened.)  When I got back, allspice's console
  3263. showed a bunch of "scsi disk busy" messages and the first couple lines
  3264. that one normally sees at boot time, ending with "Machine type 0". 
  3265. The system wouldn't respond to the console, so I reset it and rebooted.
  3266.  
  3267. There were a few error messages that I noticed while allspice was
  3268. rebooting.
  3269.  
  3270. (1) There were a bunch of complaints about attaching a local disk. 
  3271. These went flying off the console before I could read them or hit ^S. 
  3272. I assume this has something to do with finding the root partition;
  3273. someone please correct me if this isn't the case.
  3274.  
  3275. (2) There were complaints about "route to <n> not installed"
  3276. for a couple different values of n.  "no more routes" and "out of free
  3277. routes!!" also appeared.
  3278.  
  3279. (3) There were complaints about failed write-backs due to a full disk. 
  3280. However, after I was able to logon to allspice I did a "df" and found
  3281. no full partitions.
  3282.  
  3283. (4) joyride went into a series of recoveries with allspice, so I killed
  3284. it and rebooted it.
  3285.  
  3286. mike
  3287.  
  3288.  
  3289. Log-Number: 30769
  3290. Date: Sat, 9 Mar 91 12:35:20 PST
  3291. From: shirriff (Ken Shirriff)
  3292. Subject: Re: allspice didn't boot;
  3293.  
  3294. Allspice died yesterday afternoon with:
  3295. Fscache_write: DISK FULL
  3296. Ofs_FileTrunc Abandoning (indirect) block
  3297. Fscache_FetchBlock hashing error
  3298.  
  3299. Since this is a known bug, I rebooted.
  3300.  
  3301.  
  3302. Log-Number: 30770
  3303. Date: Sat, 9 Mar 91 14:07:33 PST
  3304. From: shirriff (Ken Shirriff)
  3305. Subject: Assault crash
  3306.  
  3307. Assault was crashed when I came in with:
  3308. ClientCommand: write back msg failed 40012
  3309. Fatal Error: MemFree storage block already free.
  3310.  
  3311. It failed to enter the debugger, so I couldn't track down the problem.
  3312. I rebooted, but it went into an infinite recovery loop with allspice.
  3313. I rebooted again, and everything seems to be fine now.
  3314.  
  3315.  
  3316. Log-Number: 30773
  3317. Date: Mon, 11 Mar 91 14:12:43 PST
  3318. From: bmiller (Bob Miller)
  3319. Subject: printer problem
  3320.  
  3321.  
  3322. Our printer, lw533, seems to be hung again.  SHALLOT, which drives the
  3323. printer, shows 'no entries'...SUBVERSION shows 'waiting for queue to be
  3324. enabled on shallot.'
  3325.  
  3326.  
  3327. Log-Number: 30774
  3328. Subject: Re: printer problem 
  3329. Date: Mon, 11 Mar 91 14:18:08 PST
  3330. From: Mike Kupfer <kupfer>
  3331.  
  3332. I restarted the printer daemon for lw533, which was running on
  3333. espionage.
  3334.  
  3335. mike
  3336.  
  3337.  
  3338. Log-Number: 30776
  3339. Date: Mon, 11 Mar 91 18:09:54 PST
  3340. From: dedood (Paul de Dood)
  3341. Subject: rlogin burble
  3342.  
  3343. I can't rlogin into burble from other machines (such as gluttony & buzz).
  3344. I can rlogin into other machines but I can't rlogin to burble from those
  3345. machines or from the machine I'm on (chips.csl.sri.com).
  3346.  
  3347. Does anyone know what is wrong, or how to rectify the situation?
  3348.  
  3349. Thanks,
  3350. Paul.
  3351.  
  3352.  
  3353. Log-Number: 30778
  3354. Subject: Re: rlogin burble 
  3355. Date: Mon, 11 Mar 91 20:56:17 PST
  3356. From: Mike Kupfer <kupfer>
  3357.  
  3358. The IP Server on burble is probably wedged.  Somebody needs to log in
  3359. at the console and restart it.
  3360.  
  3361. mike
  3362.  
  3363.  
  3364. Log-Number: 30781
  3365. Date: Thu, 14 Mar 91 11:48:57 PST
  3366. From: tve (Thorsten von Eicken)
  3367. Subject: error at end of reboot
  3368.  
  3369. I just rebooted crackle (sun4c) and got "Initsprite script exited abnormally"
  3370. (or so). I also have a "csh -i" owned by root keeping the cpu busy at 100%.
  3371.     TvE
  3372.  
  3373.  
  3374. Log-Number: 30782
  3375. Subject: Re: error at end of reboot 
  3376. Date: Thu, 14 Mar 91 12:03:35 PST
  3377. From: Mike Kupfer <kupfer>
  3378.  
  3379.  
  3380. The last thing executed in /hosts/crackle/bootcmds is "vmcmd -F -300".
  3381. A quick check of vmcmd.c shows that the exit status is never set
  3382. (main() doesn't return or call exit()).
  3383.  
  3384. Does anyone know why none of the Vm_Cmd invocations in vmcmd check the
  3385. return status?  Is vmcmd always supposed to exit with a status of 0?
  3386.  
  3387. I don't know what caused the looping csh.
  3388.  
  3389. mike
  3390.  
  3391.  
  3392. Log-Number: 30787
  3393. Date: Fri, 15 Mar 91 11:14:37 PST
  3394. From: tve (Thorsten von Eicken)
  3395. Subject: run-away csh on reboot problems remain
  3396.  
  3397. Was this supposed to be fixed yesterday? I just rebooted and again had
  3398. a run-away csh -i. Boing had one too.
  3399.     TvE
  3400.  
  3401.  
  3402. Log-Number: 30783
  3403. Date: Thu, 14 Mar 91 12:55:00 PST
  3404. From: tve (Thorsten von Eicken)
  3405. Subject: nfsmount problems
  3406.  
  3407. We got our 88k box up again and I'm trying to nfsmount the disk. This
  3408. used to work but doesn' anymore. The nfsmount somehow dies immediately
  3409. after start-up.
  3410. assault-8# ls -ls /rumble
  3411. total 1
  3412.    1 rrwxrwxrwx  1 root           11 Aug 16  1990 u1^ -> /rumble/u1
  3413. assault-9# nfsmount -t rumble:/u1 /rumble/u1
  3414. Attributes of rumble:/u1
  3415.         FileID 2 FS_ID 5203
  3416.         Type 2 mode 040775 links 17 size 272
  3417. RootID <-1,0,20995,2>
  3418. assault-10# ps -ax | egrep nfs
  3419. Unknown option "-x";  type "ps -help" for information
  3420. c195c RWAIT   0:03 nfsmount woosh:/usr/ncube /usr/ncube
  3421. 7195a RWAIT   0:01 nfsmount ginger:/var/spool/msgs /sprite/spool/msgs
  3422. 81955 RWAIT   0:00 nfsmount ginger:/home/ginger/sprite /home/ginger/sprite
  3423. 4193b RWAIT   0:00 /sprite/daemons/unfsd
  3424. 81950 RWAIT   0:00 nfsmount ginger:/home/ginger/users /home/ginger/users
  3425. a1957 RWAIT   0:00 nfsmount ginger:/home/ginger/spare /home/ginger/spare
  3426. c195b RWAIT   0:00 nfsmount ic:/octtools /ic/octtools
  3427. 1195d RWAIT   0:00 nfsmount woosh:/woosh/tic /woosh/tic
  3428. 9195e RWAIT   0:00 nfsmount hermes:/a /postgres/a
  3429. d1954 RWAIT   0:00 nfsmount ginger:/home/ginger/raid /home/ginger/raid
  3430. 7194c RWAIT   0:00 egrep nfs
  3431. assault-11#
  3432.  
  3433.  
  3434. Log-Number: 30786
  3435. Date: Thu, 14 Mar 91 21:24:29 PST
  3436. From: shirriff (Ken Shirriff)
  3437. Subject: Allspice crashed
  3438.  
  3439. Allspice crashed this evening with a use count = -1 error.  I think the
  3440. problem was due to a bug in the kernel I was running on sassafras, which
  3441. messed up process migration.
  3442.  
  3443. Ken
  3444.  
  3445.  
  3446. Log-Number: 30788
  3447. Subject: Re: mail 
  3448. Date: Fri, 15 Mar 91 11:46:15 PST
  3449. From: Mike Kupfer <kupfer>
  3450.  
  3451. > Date: Fri, 15 Mar 91 10:56:01 PST
  3452. > From: dfb (David F. Bacon)
  3453. > To: root
  3454. > Subject: mail
  3455. > twice in the last few days sprite has come up and sent me mail about files in
  3456. > /lost+found, which turn out to be undelivered mail messages.  is this a 
  3457. > transient bug, or should i not rely on mail sent from sprite hosts being
  3458. > delivered?
  3459. > david
  3460.  
  3461. Have you checked with the recipient to see whether the mail was
  3462. actually delivered?  I think it is possible that the files you are
  3463. seeing are in fact just copies.
  3464.  
  3465. Also, please send queries like this to "bugs".  The same people will
  3466. receive this message, but if you send mail to "bugs" it gets logged
  3467. and we will be sure to discuss it at the weekly Sprite meeting.
  3468.  
  3469. thanks,
  3470. mike
  3471.  
  3472.  
  3473. Log-Number: 30789
  3474. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  3475. Date: Fri, 15 Mar 1991 12:50:15 PST
  3476. Subject: Re: run-away csh on reboot problems remain
  3477.  
  3478. This is a known bug that has been around for a while.  If the last thing
  3479. in your bootcmds exits with a non-zero status it puts the csh in
  3480. an infinite loop.  We will discuss it at the meeting today, but I'm
  3481. not sure any of us is too eager to mess with the csh sources.
  3482.  
  3483. John
  3484.  
  3485.  
  3486. Log-Number: 30790
  3487. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  3488. Date: Fri, 15 Mar 1991 18:16:42 PST
  3489. Subject: nfsmount
  3490.  
  3491. The nfsmount of ginger:/home/ginger/spare completely disappeared from
  3492. assault.  Didn't even go into the debugger.
  3493.  
  3494. John
  3495.  
  3496.  
  3497. Log-Number: 30791
  3498. Subject: "not found" messages doing ls in /pcs
  3499. Date: Sat, 16 Mar 91 15:46:53 PST
  3500. From: Mike Kupfer <kupfer>
  3501.  
  3502. There were some error messages in the dump log of the form
  3503.  
  3504.   Dump: can't lstat /pcs/tic/tam/tlc/002-adam-01/check.c: invalid argument
  3505.  
  3506. I tried looking at 002-adam-01.  "echo *" listed the following files:
  3507.  
  3508.   #machine.h# N README README.const bin-sprite3 bin-sprite4
  3509.   bin-spriteds check.c check.h copyright gen-c.c gen-c.h gen-mips.c
  3510.   gen-mips.c~ gen-mips.h gen-ncube.c gen-ncube.h instr.c instr.c~
  3511.   instr.h instr.h~ machine.c machine.c.old machine.c~ machine.h
  3512.   machine.h~ machine.o mail main.c mkfile mkfile-sprite3
  3513.   mkfile-sprite3~ mkfile-sprite4 mkfile-spriteds mkfile~ opcode-alu.h
  3514.   opcode-check.h opcode-gram.h opcode-sym.h opcode-tok.h opcode.awk
  3515.   opcode.src opcode.txt parser-gen.y parser.c parser.h parser.tab.h
  3516.   parser.y scanner.c scanner.h symtab.c symtab.h th tree.c tree.h
  3517.   type.c type.h var.c var.h
  3518.  
  3519. "ls" gave me
  3520.  
  3521.   check.c not found
  3522.   gen-ncube.h not found
  3523.   gen-ncube.c not found
  3524.   mail not found
  3525.   mkfile-spriteds not found
  3526.   README not found
  3527.   N not found
  3528.   gen-c.h not found
  3529.   gen-c.c not found
  3530.   README.const not found
  3531.   parser.c not found
  3532.   parser.tab.h not found
  3533.   mkfile-sprite3 not found
  3534.   mkfile-sprite3~ not found
  3535.   gen-mips.h not found
  3536.   gen-mips.c~ not found
  3537.   machine.h not found
  3538.   mkfile~ not found
  3539.   machine.h~ not found
  3540.   #machine.h#    instr.c~    mkfile        opcode.src    symtab.h
  3541.   bin-sprite3/    instr.h        mkfile-sprite4    opcode.txt    th@
  3542.   bin-sprite4/    instr.h~    opcode-alu.h    parser-gen.y    tree.c
  3543.   bin-spriteds/    machine.c    opcode-check.h    parser.h    tree.h
  3544.   check.h    machine.c.old    opcode-gram.h    parser.y    type.c
  3545.   copyright    machine.c~    opcode-sym.h    scanner.c    type.h
  3546.   gen-mips.c    machine.o    opcode-tok.h    scanner.h    var.c
  3547.   instr.c    main.c        opcode.awk    symtab.c    var.h
  3548.  
  3549. Can someone explain to me what's going on here?
  3550.  
  3551. thanks,
  3552. mike
  3553.  
  3554.  
  3555. Log-Number: 30794
  3556. From: mendel (Mendel Rosenblum)
  3557. Subject: Re: "not found" messages doing ls in /pcs 
  3558. Date: Sun, 17 Mar 91 13:09:04 PST
  3559.  
  3560.  
  3561. > Can someone explain to me what's going on here?
  3562. > thanks,
  3563. > mike
  3564.  
  3565. The disk is broken so the file system gets errors trying to 
  3566. update descriptor blocks. It looks like the dump program
  3567. found a directory containing files whose descriptors 
  3568. couldn't be written because of disk errors. We might 
  3569. consider taking /pcs/tic offline because Sprite is
  3570. not very robust in the face of disk errors. It might
  3571. panic().
  3572.  
  3573.     Mendel
  3574.  
  3575.  
  3576. Log-Number: 30798
  3577. Subject: Re: "not found" messages doing ls in /pcs 
  3578. Date: Sun, 17 Mar 91 20:40:54 PST
  3579. From: Mike Kupfer <kupfer>
  3580.  
  3581. Actually, /pcs/tic is now on the /pcs partition.  The former /pcs/tic
  3582. partition is now /pcs/scratch.  Does this mean that the /pcs partition
  3583. is now suspicious?
  3584.  
  3585. mike
  3586. --
  3587. Date: Sat, 9 Mar 91 02:46:35 PST
  3588. >From: tve (Thorsten von Eicken)
  3589. To: sprite
  3590. Subject: disk /pcs/tic renamed to /pcs/scratch
  3591.  
  3592. Mendel advised me that /pcs/tic seems getting ready to shred the data.
  3593. I renamed the disk to /pcs/scratch and moved important stuff off and
  3594. temp stuff on.
  3595. I did "prefix -U /pcs/tic; prefix -M /dev/rsd04c /pcs/scratch", I fixed
  3596. /hosts/assault/mount and /sprite/src/admin/{daily,weekly}dump. I couldn't
  3597. figure out how to broadcast a "prefix -d /pcs/tic" to all machines (there
  3598. now is a regular directory /pcs/tic), so I expect some confusion in the
  3599. near future.
  3600. Did I miss anything?
  3601.     TvE
  3602.  
  3603.  
  3604. Log-Number: 30799
  3605. Date: Sun, 17 Mar 91 21:55:26 PST
  3606. From: tve (Thorsten von Eicken)
  3607. Subject: Re: "not found" messages doing ls in /pcs
  3608.  
  3609. At the time I did "update -Oq /pcs/tic /pcs/tic.new" and then remounted
  3610. /pcs/tic as /pcs/scratch and renamed /pcs/tic.new to /pcs/tic. So I guess
  3611. update just moved the trash to the other disk. The directory which
  3612. causes problems can be deleted, but I would appreciate if
  3613. someone knowledgable could do it.
  3614. What should we do with /pcs/scratch? How 'bout reformatting the
  3615. disk so that the id sectors get rewritten?
  3616.     TvE
  3617.  
  3618.  
  3619. Log-Number: 30792
  3620. Date: Sat, 16 Mar 91 15:47:07 -0800
  3621. From: dfb@bastille.berkeley.edu (David F. Bacon)
  3622. Subject: mail 
  3623.  
  3624. i did check with the recipients and the mail was not delivered.
  3625.  
  3626. david
  3627.  
  3628.  
  3629. Log-Number: 30793
  3630. Subject: raid1 reboot
  3631. Date: Sat, 16 Mar 91 22:48:20 PST
  3632. From: Mike Kupfer <kupfer>
  3633.  
  3634.  
  3635. I had to reboot raid1.  It seemed to be in some sort of state where
  3636. accesses to other servers would cause a consistency error.  The
  3637. console was filled with complaints about being unable to write back
  3638. the raid1 counters file because of a consistency error.
  3639.  
  3640. mike
  3641.  
  3642.  
  3643. Log-Number: 30796
  3644. Date: Sun, 17 Mar 91 17:20:59 PST
  3645. From: mottsmth (Jim Mott-Smith)
  3646. Subject: DS5000
  3647.  
  3648.  
  3649. Isn't Sprite supposed to know that a DS5000 can use DS3100 object code?
  3650. When I say 'make' it apologizes and says that the ds5000 is not in
  3651. the list of legal target machines. If I say 'make TM=ds3100' it's
  3652. quite content to build a 3100 object file.
  3653. -- Jim M-S
  3654.  
  3655.  
  3656. Log-Number: 30797
  3657. Subject: Exabyte refused to load tape
  3658. Date: Sun, 17 Mar 91 20:27:06 PST
  3659. From: Mike Kupfer <kupfer>
  3660.  
  3661. The Saturday night dump failed, with the following errors in
  3662. allspice's syslog:
  3663.  
  3664.   Warning: Exabyte 8200 at SCSI3#2#2 Target 5 LUN 0 error: hardware error - info bytes 0x0 0x0 0x0 0xed
  3665.   Warning: Exabyte tape not present
  3666.   Warning: Exabyte Servo System error, catastrophic failure!
  3667.   Warning: Exabyte 8200 at SCSI3#2#2 Target 5 LUN 0 error: hardware error - info bytes 0x0 0x0 0x0 0xed
  3668.   Warning: Exabyte tape not present
  3669.   Warning: Exabyte Servo System error, catastrophic failure!
  3670.  
  3671. When I checked the drive, the dump tape had been ejected.  When I put
  3672. the dump tape or any other tape back in, it was ejected after a couple
  3673. seconds.  Power cycling the drive seems to have fixed things up.
  3674.  
  3675. mike
  3676.  
  3677.  
  3678. Log-Number: 30800
  3679. Date: Sun, 17 Mar 91 23:32:58 PST
  3680. From: elm (ethan miller)
  3681. Subject: problems with mail?
  3682.  
  3683. These two mail messages appeared as one message last night.  I assume
  3684. the "From" line on the second message got lost somehow, and there may
  3685. be text missing after the "--" in the first message.
  3686.  
  3687. ethan
  3688.  
  3689. %From kupfer Sun Mar 17 20:41:01 1991
  3690. %To: mendel
  3691. %Cc: bugs
  3692. %Subject: Re: "not found" messages doing ls in /pcs 
  3693. %In-Reply-To: Your message of Sun, 17 Mar 91 13:09:04 -0800
  3694. %Date: Sun, 17 Mar 91 20:40:54 PST
  3695. %From: Mike Kupfer <kupfer>
  3696.  
  3697. %Actually, /pcs/tic is now on the /pcs partition.  The former /pcs/tic
  3698. %partition is now /pcs/scratch.  Does this mean that the /pcs partition
  3699. %is now suspicious?
  3700.  
  3701. %mike
  3702. %--
  3703. %Date: Sat, 9 Mar 91 02:46:35 PST
  3704. %From: tve (Thorsten von Eicken)
  3705. %To: sprite
  3706. %Subject: disk /pcs/tic renamed to /pcs/scratch
  3707.  
  3708. %Mendel advised me that /pcs/tic seems getting ready to shred the data.
  3709. %I renamed the disk to /pcs/scratch and moved important stuff off and
  3710. %temp stuff on.
  3711. %I did "prefix -U /pcs/tic; prefix -M /dev/rsd04c /pcs/scratch", I fixed
  3712. %/hosts/assault/mount and /sprite/src/admin/{daily,weekly}dump. I couldn't
  3713. %figure out how to broadcast a "prefix -d /pcs/tic" to all machines (there
  3714. %now is a regular directory /pcs/tic), so I expect some confusion in the
  3715. %near future.
  3716. %Did I miss anything?
  3717. %    TvE
  3718.  
  3719.  
  3720.  
  3721. Log-Number: 30801
  3722. Date: Mon, 18 Mar 91 13:58:53 PST
  3723. From: ouster (John Ousterhout)
  3724. Subject: FTP connections refused
  3725.  
  3726. Twice today FTP to allspice has wedged up so that attempts to
  3727. connect result in the following message from FTP:
  3728.  
  3729.     ftp: connect: connection refused
  3730.  
  3731. I restarted the IP server this morning, and I'm about to restart
  3732. it again.  For some reason, this bug doesn't seem to affect
  3733. rlogins or mail.
  3734.                     -John-
  3735.  
  3736.  
  3737. Log-Number: 30802
  3738. Subject: Re: FTP connections refused 
  3739. Date: Mon, 18 Mar 91 14:12:35 PST
  3740. From: Mike Kupfer <kupfer>
  3741.  
  3742.  
  3743. Frequently when this happens, there is a line in the syslog like
  3744.  
  3745.   <28>Mar 18 11:26:18 inetd[90e58]: ftp/tcp accept: invalid argument
  3746.  
  3747. A quick check of /sprite/syslogs/allspice.Berkeley.EDU also shows
  3748.  
  3749.   <18>Mar 18 12:31:39 sendmail[10e5a]: NOQUEUE: SYSERR: getrequests: accept: invalid argument
  3750.   <18>Mar 18 12:35:08 sendmail[10e5a]: NOQUEUE: SYSERR: getrequests: accept: invalid argument
  3751.   <18>Mar 18 12:38:30 sendmail[10e5a]: NOQUEUE: SYSERR: getrequests: accept: invalid argument
  3752.   <18>Mar 18 12:39:00 sendmail[10e5a]: NOQUEUE: SYSERR: getrequests: accept: invalid argument
  3753.  
  3754. and sure enough, there is a bunch of mail on ginger queued up for
  3755. allspice because allspice's sendmail wasn't talking to anyone.
  3756.  
  3757. Perhaps the IP server is mismanaging the socket that the application
  3758. is doing the accept() on.  
  3759.  
  3760. mike
  3761.  
  3762.  
  3763. Log-Number: 30803
  3764. Subject: problems compiling
  3765. Date: Mon, 18 Mar 91 16:46:23 PST
  3766. From: Mary Baker <mgbaker>
  3767.  
  3768. Frequently but randomly, I'm getting the error
  3769.  
  3770. MemChunkAlloc couldn't extend heapcc: Program cpp got fatal signal 9.
  3771.  
  3772. when trying to compile kernel sources.  I am compiling on sparcstations
  3773. using the "new" 1.084 kernel.  I didn't have this problem before with
  3774. this kernel.  Does anyone have a clue what's happening here?  (I'm running
  3775. a different kernel on my machine, but I turned off importing migrated
  3776. processes to my machine.)
  3777.  
  3778.  
  3779. Mary
  3780.  
  3781.  
  3782. Log-Number: 30804
  3783. Date: Mon, 18 Mar 91 17:28:38 PST
  3784. From: ouster (John Ousterhout)
  3785. Subject: More compilation problems
  3786.  
  3787. I too have been experiencing the same pmake problems that Mary
  3788. reported, plus at least one other that I can't put my finger on.
  3789. When I started typing "pmake -X" the problems seem to have
  3790. stopped.  I'm wondering if there's any chance that Ken's test
  3791. kernel for UNIX compatibility is allowing migrations to itself,
  3792. and if this might perhaps be the cause of the problems?  As I
  3793. remember, Bob had to change the migration version in his test
  3794. kernels to prevent problems.
  3795.                     -John-
  3796.  
  3797.  
  3798. Log-Number: 30805
  3799. Date: Mon, 18 Mar 91 17:32:46 PST
  3800. From: shirriff (Ken Shirriff)
  3801. Subject: Re: More compilation problems
  3802.  
  3803. Oops.  Sorry.  Sassafras had a bunch of messages about killing migrated
  3804. processes, so I think my new kernel has problems with migration.  I'll
  3805. change the migration version for my kernel.  I've rebooted sassafras with
  3806. an old kernel, so things should work properly now.
  3807.  
  3808. Ken
  3809.  
  3810.  
  3811. Log-Number: 30806
  3812. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  3813. Date: Mon, 18 Mar 1991 18:09:36 PST
  3814. Subject: bugs fixed in vm
  3815.  
  3816.  
  3817. I fixed two bugs in the vm system.  First, the coreMap was not
  3818. initialized properly during boot.  On the ds5000 this caused some
  3819. of the bits to be set to bogus values (perhaps the other machine
  3820. types zero their memory before boot?).  Lots of the pages had the
  3821. "wireCount" field set to a random number, so that they could not
  3822. be deleted from a segment.  Second, the code that deleted pages
  3823. from a segment did not work correctly if the "wireCount" was greater
  3824. than zero.  It would bail out without cleaning up properly, so that
  3825. when the process tried to exit it would end up waiting forever on
  3826. a condition.
  3827.  
  3828. John
  3829.  
  3830.  
  3831. Log-Number: 30807
  3832. Date: Tue, 19 Mar 91 09:13:52 PST
  3833. From: ouster (John Ousterhout)
  3834. Subject: Re: changes to rpc
  3835.  
  3836. In response to John's message:
  3837.  
  3838.     When I booted  my ds5000 I got the following messages:
  3839.  
  3840.     Broadcasting for server of "/"
  3841.     RpcDoCall: <prefix> RPC to broadcast is hung
  3842.     <prefix> RPC ok
  3843.  
  3844.     I've never seen this before.  Could this be related to the changes you
  3845.     made to the RPC system?
  3846.  
  3847. Right:  this replaces the "x hanging my broadcast message", with the
  3848. positive side-effect that the RPC system doesn't return an error to
  3849. its caller, but keeps trying and very quickly succeeds.
  3850.  
  3851. I believe that what's really going on is this:
  3852.  
  3853. 1. A client sends a broadcast packet.
  3854. 2. The server either doesn't get the packet, or takes a bit too long
  3855.    to service it.
  3856. 3. The client retransmits its request, with the "please ack" bit set.
  3857. 4. Every machine on the network gets the retransmitted broadcast and
  3858.    acks it.
  3859. 5. The client gets a zillion acks.
  3860. 6. The client thinks it's getting too many acks (i.e. the server has been
  3861.    taking too long to respond:  the client doesn't distinguish between
  3862.    N acks spaced out a few seconds apart and N acks received in a 100-ms
  3863.    interval) .  For normal RPCs, it just prints a message like the one
  3864.    above and keeps trying.  For broadcasts, the RPC system used to return
  3865.    an error.  I changed it so that it treats broadcasts the same as other
  3866.    RPCs, and keeps trying.
  3867.  
  3868. I suppose the real solution is to change the client so that it realizes
  3869. that it's gotten a zillion acks in a short interval and doesn't get upset.
  3870. But this seems like a much more substantial change, so I didn't do it.
  3871.  
  3872.                     -John-
  3873.  
  3874.  
  3875. Log-Number: 30809
  3876. Date: Tue, 19 Mar 91 16:10:51 PST
  3877. From: elm (ethan miller)
  3878. Subject: yet more printer problems
  3879.  
  3880. I can't print a (certain) PostScript file to lw608-8.  This file does
  3881. print on lw508-5, which is run off Unix.  When I try to print to
  3882. lw608-8, it shows up in the print queue and then disappears some
  3883. time later (with no paper showing up).  As far as I know, the two
  3884. printers are both the same model of laserwriter.  The files in
  3885. question are in /home/ginger/raid/viewlogic/raidII/hippi/*.ps.
  3886.  
  3887. Does this have anything to do with some header that Unix might
  3888. prepend and Sprite not prepend (or the other way around)?
  3889.  
  3890. thanks
  3891.  
  3892. ethan
  3893.  
  3894.  
  3895. Log-Number: 30811
  3896. Subject: roar won't boot
  3897. Date: Wed, 20 Mar 91 23:39:39 PST
  3898. From: Mike Kupfer <kupfer>
  3899.  
  3900.  
  3901. Seth Goldstein (x3-7566) tells me that roar won't boot.  It gets to
  3902. "starting RPC service" and then goes into an infinite loop of
  3903. (approximately)
  3904.  
  3905.   FsrmtPseudoDeviceVerify, client 43 not known for lcl pdev <e000a,
  3906.   78a75a60>
  3907.  
  3908. I discovered that this is being generated by
  3909. FspdevRmtPseudoStreamVerify, but I couldn't tell just from looking at
  3910. the code what was supposed to be happening.  I tried zapping all the
  3911. pseudo-devices in /hosts/roar, but that didn't help.
  3912.  
  3913. Seth said he's dead in the water until this is fixed (and I have to
  3914. leave in a few minutes), so could someone look at this in the morning?
  3915. Seth said he'd come in early to boot roar so that someone could debug
  3916. it.
  3917.  
  3918. mike
  3919.  
  3920.  
  3921. Log-Number: 30812
  3922. Subject: problems with allspice reboot
  3923. Date: Thu, 21 Mar 91 00:41:54 PST
  3924. From: Mike Kupfer <kupfer>
  3925.  
  3926. I took allspice down to reboot it because the dump job had hung
  3927. Tuesday night/Wednesday morning and couldn't be killed.  I ran into
  3928. a few problems rebooting it.
  3929.  
  3930. (1) There is nothing in the allspice "howto" sheet telling how to skip
  3931. disk checks ("-f").  Should this information go in each server's
  3932. howto, or is there a more general document that it should go in?
  3933.  
  3934. (2) Allspice hung the first time it came up.  The last message in the
  3935. syslog said something about a consist RPC with coons hanging.
  3936.  
  3937. (3) While I was trying to figure out what to do about coons and
  3938. allspice, the following message appeared on allspice's console:
  3939.  
  3940.   OfsFragFree bitmap=<3f> checkMask=<c0>
  3941.   OfsFragFree: block not free, block 59930, numFrag 2, offset 0
  3942.  
  3943. Does this mean that despite my manually syncing allspice and then
  3944. running "shutdown", the disk still wasn't brought down cleanly?
  3945.  
  3946. (4) I tried putting coons in the debugger to see if that would unwedge
  3947. allspice.  (a) There's no ds3100 kmsg in ~sprite on dill.  (b) The
  3948. sun3 kmsg in ~sprite is almost 3 years old (it doesn't even understand
  3949. "-d")--not that I expected a sun3 kmsg to work with coons, which is a
  3950. ds5000, anyway.  I eventually L1-A'd allspice and rebooted.
  3951.  
  3952. (By the way, would anyone complain if I zap ~sprite/bin?  It always
  3953. points to cmds.sun3, which isn't too helpful if you're on, say, dill
  3954. or shallot.)
  3955.  
  3956. (5) The instructions for taking a core dump of allspice recommend
  3957. using a partition with at least 40MB free.  There are only two such
  3958. partitions on ginger: /home/ginger/users and /home/ginger/pnh.  I
  3959. think it would be very bad manners to start taking space on pnh, and I
  3960. have doubts about /home/ginger/users.  What's the story on our disk
  3961. storage on ginger?  Are we planning to get more space?  (Or is it time
  3962. to do some housecleaning?)
  3963.  
  3964. mike
  3965.  
  3966.  
  3967. Log-Number: 30817
  3968. Subject: more notes on mail problems
  3969. Date: Fri, 22 Mar 91 23:11:05 PST
  3970. From: Mike Kupfer <kupfer>
  3971.  
  3972. I don't know if this is relevant to the mail lossage we've been
  3973. experiencing lately, but the past couple days I've noticed a lot of
  3974. orphan sendmail lock files which I've had to remove by hand.  There
  3975. have also been a bunch of "no control file" entries in the queue.
  3976.  
  3977. mike
  3978.  
  3979.  
  3980. Log-Number: 30818
  3981. Date: Sat, 23 Mar 91 14:26:28 PST
  3982. From: shirriff (Ken Shirriff)
  3983. Subject: Violence died
  3984.  
  3985. Violence suddenly locked up while I was using it.  I couldn't do L1-A.
  3986. It is running the ds3100 1.084 kernel.
  3987.  
  3988. Ken
  3989.  
  3990.  
  3991. Log-Number: 30821
  3992. Subject: assault reboot
  3993. Date: Tue, 26 Mar 91 12:15:29 PST
  3994. From: Mike Kupfer <kupfer>
  3995.  
  3996. Assault died around 0100 this morning with "Fatal Error: Mem_Free:
  3997. storage block already free".  There were a dozen or two messages
  3998. earlier on the console saying
  3999.  
  4000.   Corrupted directory? File ID <25, 0, n> dirBlockNum 0, blockOffset 512
  4001.  
  4002. where n had the values 6497, 61097, 42216, and 21040.  Is /pcs/scratch
  4003. giving us a hard time again?
  4004.  
  4005. One more oddity: after assault went into the debugger, it was still
  4006. sort of talking on the net.  There was a reboot message for roar at
  4007. around 0900 on assault's console, and when I came in sage was
  4008. repeatedly trying to go through recovery with assault.
  4009.  
  4010. mike
  4011.  
  4012.  
  4013. Log-Number: 30822
  4014. Date: Tue, 26 Mar 91 16:38:14 PST
  4015. From: shirriff (Ken Shirriff)
  4016. Subject: Allspice crash
  4017.  
  4018. Allspice crashed yesterday (or maybe the day before) with:
  4019. FsReopenHandle: file "make 4353" client 53 has dirty blocks but client 62 is
  4020. using
  4021. MachHandleTrap: entering debugger
  4022.  
  4023.  
  4024. Log-Number: 30823
  4025. Date: Wed, 27 Mar 91 13:59:59 PST
  4026. From: shirriff (Ken Shirriff)
  4027. Subject: Allspice crash
  4028.  
  4029. Last night the talkd went berserk and started printing zillions of
  4030. "stale remote handle" errors.  I tried L1-J to stop the syslog, but I
  4031. couldn't get anything through on the keyboard; it just said "serial
  4032. overrun on serialB" or whatever.  I tried getting it into the debugger
  4033. but it didn't work; even L1-A wouldn't work.
  4034.  
  4035. I think talkd has done this before.
  4036.  
  4037. Ken
  4038.  
  4039.  
  4040. Log-Number: 30824
  4041. Date: Thu, 28 Mar 91 10:04:53 PST
  4042. From: ouster@dill (John Ousterhout)
  4043. Subject: Allspice crash
  4044.  
  4045. Allspice just crashed.  First it printed a message about
  4046. "sanity check failed on outgoing packet", then it seemed
  4047. to be entering the debugger, then it printed another
  4048. message about another RpcSanityCheck (on an incoming packet?)
  4049. "packet too short, 98 < 415131", then it entered the
  4050. debugger again.  I have to leave to give a talk at Adobe, so
  4051. I couldn't do any debugging.  I've started Allspice rebooting.
  4052.  
  4053.                 -John-
  4054.  
  4055.  
  4056. Log-Number: 30825
  4057. Subject: Re: Allspice crash 
  4058. Date: Thu, 28 Mar 91 12:13:29 PST
  4059. From: Mike Kupfer <kupfer>
  4060.  
  4061.  
  4062. One bit of additional information: Jim left a note on my keyboard that
  4063. included the client and server ID's, which were garbage: 10816319 and
  4064. 2145348069.
  4065.  
  4066. mike
  4067.  
  4068.  
  4069. Log-Number: 30832
  4070. Subject: raid1 deadlock
  4071. Date: Mon, 01 Apr 91 14:49:06 PST
  4072. From: Mike Kupfer <kupfer>
  4073.  
  4074. raid1 apparently deadlocked itself on /r1, so I rebooted it.  Here are
  4075. some excerpts from my debugging session:
  4076.  
  4077.    14d01     0 [0,     0] [17,600000] f6dbf4ac  waiting Rpc_Server
  4078.    34d0d     0 [0,     0] [9,260000] f6dbf4ac  waiting Rpc_Server
  4079.    24d0e     0 [0,     0] [37,320000] f6dbf4ac  waiting Rpc_Server
  4080.    34d0f     0 [0,     0] [7,620000] f6dbf4ac  waiting Rpc_Server
  4081.    14d10     0 [0,     0] [33,240000] f6dbf4ac  waiting Rpc_Server
  4082.    14d17     0 [0,     0] [5,540000] f6dbf4ac  waiting Rpc_Server
  4083.    64d18     0 [0, 60000] [0, 20000] f6dbf4ac  waiting csh
  4084.    14d1f     0 [0,     0] [5,560000] f6dbf4ac  waiting Rpc_Server
  4085.  
  4086.   [...]
  4087.   (gdb) up 3
  4088.   Reading in symbols for fsutilHandle.c...done.
  4089.   #3  0xf605df78 in Fsutil_HandleFetch (fileIDPtr=(struct Fs_FileID *) 0xf6bf66a8) (fsutilHandle.c line 578)
  4090.   578            (void) Sync_Wait(&hdrPtr->unlocked, FALSE);
  4091.   (gdb) print *hdrPtr
  4092.   $2 = {fileID = {type = 1, serverID = 77, major = 1, minor = 2}, 
  4093.     flags = 3, unlocked = {waiting = 1}, refCount = 14, 
  4094.     name = 0xf6789da8 "/r1", 
  4095.     lruLinks = {prevPtr = 0xf74541f8, nextPtr = 0xf6de1150}, 
  4096.     lockProcID = -165697440}
  4097.   (gdb) print /x hdrPtr.lockProcID
  4098.   $4 = 0xf61fa860
  4099.   (gdb) print &hdrPtr.unlocked
  4100.   $5 = (struct Sync_Condition *) 0xf6dbf4ac
  4101.  
  4102. Note the bogus lockProcID.
  4103.  
  4104. mike
  4105.  
  4106.  
  4107. Log-Number: 30834
  4108. Subject: syslog times are wrong again
  4109. Date: Tue, 02 Apr 91 12:45:08 PST
  4110. From: Mike Kupfer <kupfer>
  4111.  
  4112. The times in the syslog have been off by an hour since the start of
  4113. the month.  I assume this is because the kernel still doesn't
  4114. understand the daylight savings rules.  When does daylight savings
  4115. time start this year--the end of the month?
  4116.  
  4117. mike
  4118.  
  4119.  
  4120. Log-Number: 30835
  4121. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  4122. Date: Tue, 2 Apr 1991 13:13:49 PST
  4123. Subject: Re: syslog times are wrong again
  4124.  
  4125. The kernel assumes that daylight savings time starts and ends at the
  4126. beginning of the month.  Daylight savings time starts for real on the
  4127. 7th, so we only have to put up with it for the rest of the week.
  4128.  
  4129. John
  4130.  
  4131.  
  4132. Log-Number: 30836
  4133. Subject: yet another raid1 deadlock
  4134. Date: Tue, 02 Apr 91 13:15:00 PST
  4135. From: Mike Kupfer <kupfer>
  4136.  
  4137.  
  4138. Sage hung up on raid1 (which was running 1.084) again.  As near as I
  4139. can tell, there's a memory smash happening.  Consider the domainPtr
  4140. from Fsio_FileReopen
  4141.  
  4142.   (gdb) print *domainPtr
  4143.   $10 = {domainPrefix = 0x1, domainNumber = 77, flags = 1, 
  4144.     refCount = 170178, condition = {waiting = -1}, 
  4145.     backendPtr = 0xf6058668, domainOpsPtr = 0x0, 
  4146.     clientData = 0xf60d16c8}
  4147.  
  4148. and the hdrPtr from Fsutil_HandleFetch
  4149.  
  4150.   (gdb) print *hdrPtr
  4151.   $11 = {fileID = {type = 1, serverID = 77, major = 1, minor = 170178},
  4152.     flags = 3, unlocked = {waiting = 1}, refCount = 1, 
  4153.     name = 0xffffffff, 
  4154.     lruLinks = {prevPtr = 0xf69fa9c8, nextPtr = 0xf72a1498}, 
  4155.     lockProcID = -165697440}
  4156.   (gdb) print /x hdrPtr.lockProcID
  4157.   $12 = 0xf61fa860
  4158.  
  4159. Here's the stack backtrace of my hung RPC server on raid1.
  4160.  
  4161.   (gdb) bt
  4162.   #0  0xf600c6f0 in Mach_ContextSwitch ()
  4163.   #1  0xf60b80a0 in SyncEventWaitInt (event=4146719212, wakeIfSignal=0)
  4164.       (syncLock.c line 675)
  4165.   #2  0xf60b6ae8 in Sync_SlowWait (
  4166.       conditionPtr=(struct Sync_Condition *) 0xf729e9ec, 
  4167.       lockPtr=(struct Sync_KernelLock *) 0xf60ea180, 
  4168.       wakeIfSignal=0) 
  4169.       (syncLock.c line 284)
  4170.   #3  0xf605df78 in Fsutil_HandleFetch (
  4171.       fileIDPtr=(struct Fs_FileID *) 0xf6686678) 
  4172.       (fsutilHandle.c line 578)
  4173.   #4  0xf605d870 in Fsutil_HandleInstall (
  4174.       fileIDPtr=(struct Fs_FileID *) 0xf6686678, 
  4175.       size=316, 
  4176.       name=(char *) 0xffffffff, 
  4177.       cantBlock=0, 
  4178.       hdrPtrPtr=(struct Fs_HandleHeader **) 0xf806bcdc) 
  4179.       (fsutilHandle.c line 317)
  4180.   #5  0xf60438ec in Fsio_LocalFileHandleInit (
  4181.       fileIDPtr=(struct Fs_FileID *) 0xf6686678, 
  4182.       name=(char *) 0xffffffff, 
  4183.       descPtr=(struct Fsdm_FileDescriptor *) 0xffffffff, 
  4184.       cantBlock=0, 
  4185.       newHandlePtrPtr=(struct Fsio_FileIOHandle **) 0xf806bcdc) 
  4186.       (fsioFile.c line 80)
  4187.   #6  0xf604405c in Fsio_FileReopen (clientID=33, 
  4188.       inData=(ClientData) 0xf6686678, 
  4189.       outSizePtr=(ClientData) 0xf806bddc, 
  4190.       outDataPtr=(ClientData *) 0xf806bdd8) 
  4191.       (fsioFile.c line 431)
  4192.   #7  0xf6058680 in Fsrmt_RpcReopen (srvToken=(ClientData) 0xf6685608, 
  4193.       clientID=33, 
  4194.       storagePtr=(struct Rpc_Storage *) 0xf806bdc8) 
  4195.       (fsrmtDomain.c line 585)
  4196.   #8  0xf60ade88 in Rpc_Server () (rpcServer.c line 255)
  4197.   #9  0xf60b3310 in Sched_StartKernProc (...) (...)
  4198.  
  4199.  
  4200. Log-Number: 30837
  4201. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  4202. Date: Tue, 2 Apr 1991 13:19:57 PST
  4203. Subject: Re: yet another raid1 deadlock
  4204.  
  4205. Some of the stuff in the domain header does indeed look screwed up.
  4206. This sort of deadlock has happened before, however, and may not be due
  4207. to overwriting memory.  Should raid1 deadlock again use the lockProcID
  4208. field (this is a pointer to a Proc_ControlBlock) to backtrace the
  4209. stack of the process that is holding the lock.  That should give us
  4210. some more clues. 
  4211.  
  4212. John
  4213.  
  4214.  
  4215. Log-Number: 30838
  4216. Subject: Re: yet another raid1 deadlock 
  4217. Date: Tue, 02 Apr 91 14:07:05 PST
  4218. From: Mike Kupfer <kupfer>
  4219.  
  4220. > Should raid1 deadlock again use the lockProcID
  4221. > field (this is a pointer to a Proc_ControlBlock)
  4222.  
  4223. Is there some reason why lockProcID is declared to be an int in fs.h?
  4224.  
  4225. mike
  4226.  
  4227.  
  4228. Log-Number: 30839
  4229. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  4230. Date: Tue, 2 Apr 1991 14:09:53 PST
  4231. Subject: Re: yet another raid1 deadlock
  4232.  
  4233.  
  4234. I assume it is because of problems with the include files, ie you get
  4235. a circularity in the include files if you try to define it as such.
  4236.  
  4237. John
  4238.  
  4239.  
  4240. Log-Number: 30840
  4241. Subject: -lc_g not working w/ ds5000?
  4242. Date: Tue, 02 Apr 91 15:43:52 PST
  4243. From: Mike Kupfer <kupfer>
  4244.  
  4245. I tried to rebuild "migrate" (formerly "mig) for the ds3100, using a ds5000. 
  4246. Appended is the make log.  It worked fine when I did a plain "make" on a ds3100.
  4247. Is this a configuration problem, or a bug in the tools, or what?
  4248.  
  4249. mike
  4250. --
  4251. covet% cd /sprite/src/cmds/migrate
  4252. covet% make TM=ds3100
  4253. --- ds3100.md/mig.o ---
  4254. rm -f ds3100.md/mig.o
  4255. cc  -g3 -O -Dds3100 -Dsprite -Uultrix  -I. -Ids3100.md -I/sprite/lib/include -I/sprite/lib/include/ds3100.md -c mig.c -o ds3100.md/mig.o
  4256. --- ds3100.md/migrate ---
  4257. rm -f ds3100.md/migrate
  4258. cc  -g3 -O -Dds3100 -Dsprite -Uultrix  -I. -Ids3100.md -I/sprite/lib/include -I/sprite/lib/include/ds3100.md -o ds3100.md/migrate  ds3100.md/mig.o -lc_g
  4259. ld:
  4260. Can't locate file for: -lc_g with -B1.31
  4261. ld: Usage: ld [options] file [...]
  4262. *** Error code 1
  4263. make: 1 error
  4264.  
  4265.  
  4266. Log-Number: 30841
  4267. Subject: rcs messup?
  4268. Date: Tue, 02 Apr 91 16:15:20 PST
  4269. From: Mary Baker <mgbaker>
  4270.  
  4271. The delta text for the rcs'd copy of fsrmtFile.c is missing in fsrmtFile.c,v.
  4272. This means you can't do an rcsdiff on the file.  Has anyone heard of
  4273. this kind of rcs messup before?
  4274.  
  4275. Mary
  4276.  
  4277.  
  4278. Log-Number: 30842
  4279. Subject: Re: rcs messup? 
  4280. Date: Tue, 02 Apr 91 16:33:20 PST
  4281. From: Mike Kupfer <kupfer>
  4282.  
  4283.  
  4284. The RCS file for /etc/spritehosts got clobbered at some time in the past, and I
  4285. had to flush a bunch of old RCS revisions.  I blamed it on file system problems.
  4286.  
  4287. mike
  4288.  
  4289.  
  4290. Log-Number: 30843
  4291. Date: Tue, 2 Apr 91 18:15:21 PST
  4292. From: elm (ethan miller)
  4293. Subject: problems with # of blocks in ls/du?
  4294.  
  4295. For some reason, a file of a constant size gives a different # of
  4296. blocks on /scratch1 and /sprite/src/kernel.  The files on /scratch1
  4297. are consistently larger than the ones on /sprite/src/kernel, despite
  4298. their identical file sizes (as listed with ls -l).  Is this supposed
  4299. to happen?  (I noticed it when transferring my kernel src from
  4300. /scratch1 to /sprite/src/kernel after the new disk was created.)
  4301. I'll leave copies of /sprite/src/kernel/net.elm/sun4.md/netHppi.c.mod
  4302. and /scratch1/elm/src/.... around in case you need to check them.
  4303.  
  4304. thanks
  4305.  
  4306. ethan
  4307.  
  4308.  
  4309. Log-Number: 30846
  4310. Date: Wed, 3 Apr 91 10:32:42 PST
  4311. From: jhh@dill (John H. Hartman)
  4312. Subject: fsattach and lfs
  4313.  
  4314.  
  4315.  
  4316. Lfs file systems are currently attached in /hosts/$HOST/bootcmds, unlike
  4317. normal file systems which are listed in /hosts/$HOST/mount.  If you
  4318. goof up and put an lfs in the mount table the machine will die with
  4319. a hard error during fscheck.  Fsattach should be modified to handle
  4320. lfs file systems.
  4321.  
  4322. John
  4323.  
  4324.  
  4325. Log-Number: 30847
  4326. Date: Wed, 3 Apr 91 10:30:58 PST
  4327. From: jhh@dill (John H. Hartman)
  4328. Subject: new kernel problems
  4329.  
  4330.  
  4331. Anise and allspice have been unsuccessful in running the new kernel (1.087).
  4332. They both get a negative reference count releasing a handle in 
  4333. Fsio_StreamClientKill.  I am going to reboot both of them with the
  4334. old kernel.  Here is a stack backtrace from allspice's last crash.
  4335. The other backtraces looked similar.
  4336.  
  4337. John
  4338.  
  4339. #0  panic (__builtin_va_alist=-167369877) (sysPrintf.c line 220)
  4340. #1  0xf60624b0 in Fsutil_HandleReleaseHdr (...) (...)
  4341. #2  0xf604c110 in Fsio_StreamClientKill (...) (...)
  4342. #3  0xf60642a4 in Fsutil_RemoveClient (...) (...)
  4343. #4  0xf606422c in Fsutil_ClientCrashed (...) (...)
  4344. #5  0xf60a98a0 in CrashCallBacks (...) (...)
  4345. #6  0xf60a3d74 in Proc_ServerProc (...) (...)
  4346. #7  0xf60b7020 in Sched_StartKernProc (...) (...)
  4347. #8  0xf60b6fa0 in Sched_StartKernProc (...) (...)
  4348.  
  4349.  
  4350. Log-Number: 30848
  4351. Date: Thu, 4 Apr 91 13:13:52 PST
  4352. From: ouster (John Ousterhout)
  4353. Subject: Reset error?
  4354.  
  4355. I'm running version 1.087 of the kernel (new).  A few minutes ago,
  4356. the following two lines appeared in my console window:
  4357.  
  4358. LE ethernet: Memory underflow error.
  4359. Deferring reset.
  4360.  
  4361. Then everything stopped.  My machine wouldn't do anything that required
  4362. communication with the outside world.  After about a minute I typed
  4363. control-N, at which point everything cleared up and tyranny went
  4364. through recovery with the various file servers.  Does this mean there's
  4365. a bug in the new deferred reset code for the network?
  4366.  
  4367.                     -John-
  4368.  
  4369.  
  4370. Log-Number: 30849
  4371. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  4372. Date: Thu, 4 Apr 1991 13:35:18 PST
  4373. Subject: Re: Reset error?
  4374.  
  4375.  
  4376. The new kernel should contain a fix for this bug.  
  4377.  
  4378. John
  4379.  
  4380.  
  4381. Log-Number: 30850
  4382. Date: Thu, 4 Apr 91 13:38:06 PST
  4383. From: ouster (John Ousterhout)
  4384. Subject: Migration problem with 1.087?
  4385.  
  4386. In trying to compile a few minutes ago I got the following error
  4387. messages:
  4388.  
  4389. <rmt notify> 4/4/91 14:35:39 larceny (73) RPC timed-out
  4390. Warning: received status 30002 notifying process.
  4391. <mig command> 4/4/91 14:36:25 larceny (73) RPC timed-out
  4392.  
  4393. Could there be some sort of migration version number problem
  4394. with the new kernel?
  4395.                     -John-
  4396.  
  4397.  
  4398. Log-Number: 30851
  4399. Subject: Re: Migration problem with 1.087? 
  4400. Date: Thu, 04 Apr 91 13:43:36 PST
  4401. From: Mary Baker <mgbaker>
  4402.  
  4403. Larceny is in an infinite recovery loop with allspice.  We've seen this
  4404. happen before, and I haven't yet figured out how to fix it for sure.
  4405.  
  4406. John H. and I are working on putting out a new "new" kernel since there
  4407. were bugs in 1.087.  We may not be able to fix the infinite recovery loop
  4408. in time.  I'm hoping it's fixed by one of my other fixes, but I'm not sure
  4409. yet.
  4410.  
  4411.  
  4412.  
  4413. Mary
  4414.  
  4415.  
  4416. Log-Number: 30852
  4417. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  4418. Date: Fri, 5 Apr 1991 10:05:40 PST
  4419. Subject: lfs bug
  4420.  
  4421.  
  4422. Allspice crashed yesterday with an lfs bug in the new /sprite/src/kernel.
  4423. That filesystem is unmounted until further notice.  The message on the
  4424. console was
  4425.  
  4426. Dirtyblocks (2) after a checkpoint
  4427. Fatal Error: Discriptor map foulup, can't find file 35213 at 6123
  4428.  
  4429. Allspice crashed a second time with the same bug, although the numbers
  4430. were different.  Running lfscheck on the filesystem produces lots of
  4431. errors.  I've dd'ed the filesystem onto the other new disk so that
  4432. Mendel may look at it when he gets back.  In the meantime I'm trying to
  4433. get the first copy into decent shape.  Wish me luck.
  4434.  
  4435. John
  4436.  
  4437.  
  4438. Log-Number: 30856
  4439. Date: Sat, 06 Apr 91 00:47:11 PST
  4440. From: Mary Baker <mgbaker>
  4441.  
  4442. Allspice crashed tonight while doing the restore of /sprite/src/kernel.
  4443. It froze up totally and I had to reboot it.  I got the pc of where it was
  4444. stuck and will try to figure out what was happening.
  4445.  
  4446. Mary
  4447.  
  4448.  
  4449. Log-Number: 30857
  4450. From: mendel (Mendel Rosenblum)
  4451. Subject: Network hangup on new kernel.
  4452. Date: Sat, 06 Apr 91 11:01:57 PST
  4453.  
  4454.  
  4455. I got the following message in my syslog on jaywalk:
  4456.  
  4457. LE ethernet: Memory underflow error.
  4458. Deferring reset.
  4459.  
  4460. and the network appeared to stop working.  I typed l1-n and everything
  4461. cleared up.   The kernel was:
  4462.  
  4463. SPRITE VERSION 1.087 (sun4c) (2 Apr 91 14:22:57)
  4464.  
  4465.  
  4466.     Mendel
  4467.  
  4468.  
  4469. Log-Number: 30858
  4470. Date: Sat, 6 Apr 91 11:46:57 PST
  4471. From: gibson (Garth Gibson)
  4472. Subject: May be an X bug or an xproof bug
  4473.  
  4474.  
  4475. mustard 14> xproof -display apathy:0 -geometry +449+0 -scale 11 Introduction.n
  4476.  
  4477. puts an xproof window scaled up by 10% in the right half of apathy's screen
  4478.  
  4479. mustard 15> xproof -display apathy:0 -name XprfIntroduction.n Introduction.n
  4480.  
  4481. puts an unscaled, free floating xproof window on apathy's screen and puts
  4482. an useful title in my icon manager entry
  4483.  
  4484. but
  4485.  
  4486. mustard 16> xproof -display apathy:0 -name XprfIntroduction.n -geometry +449+0 -scale 11 Introduction.n
  4487.  
  4488. does not do what I expect - the geometry and scale args are ignored
  4489.  
  4490. is there some "user friendly" function deep in the bowels of X customization
  4491. files that makes the geometry and scale parameters dependent on the default
  4492. values of the name argument?
  4493.  
  4494. Am I unusual, or do others find X customization difficult to learn, difficult
  4495. to debug, and horrendous to encounter on another person's screen ?
  4496.  
  4497.  
  4498. Log-Number: 30866
  4499. Date: Sat, 6 Apr 91 22:39:35 PST
  4500. From: gibson@apathy.Berkeley.EDU (Garth Gibson)
  4501. Subject: Re: May be an X bug or an xproof bug
  4502.  
  4503. You win the prize.  It is the .n extension on the -name argument.  Gross.
  4504. garth
  4505.  
  4506. > From kupfer@sprite.Berkeley.EDU Sat Apr  6 21:53:37 1991
  4507. > Cc: bugs@sprite.Berkeley.EDU, tve@sprite.Berkeley.EDU
  4508. > Subject: Re: May be an X bug or an xproof bug 
  4509. > Try "-name XprfIntroduction" instead of "-name XprfIntroduction.n".  I
  4510. > suspect there's some bug or misfeature in the Xt argument parsing that
  4511. > gets triggered by the period in the name.  (I suspect it's a bug but
  4512. > would want to reread the "resource specification" documentation before
  4513. > submitting a bug report to MIT.)
  4514. > mike
  4515.  
  4516.  
  4517.  
  4518. Log-Number: 30861
  4519. Date: Sat, 6 Apr 91 18:13:22 PST
  4520. From: Dean Long <dlong@midgard.ucsc.edu>
  4521. Subject: pmake
  4522.  
  4523. pmake gets confused if a blank line in a Makefile has spaces in it.
  4524.  
  4525. dl
  4526.  
  4527.  
  4528. Log-Number: 30864
  4529. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  4530. Date: Sat, 6 Apr 1991 18:24:35 PST
  4531. Subject: allspice crashed
  4532.  
  4533.  
  4534. Allspice crashed with a level 15 interrupt before we could shut it
  4535. down cleanly.  On reboot RPCs concerning /etc/spritehosts hung to
  4536. a bunch of clients.  We pulled out the network interface, then sat
  4537. through a timeout on each and every client.  Each one concerned
  4538. /etc/spritehosts.  After we plugged the network back in things went
  4539. fine for a while, but then it all wedged up again.  We sync'ed the
  4540. disks in preparation for a reboot, but this cleared things up.
  4541. There isn't much to be learned from all of this, except that it is
  4542. possible for our system to get into very bad situations during
  4543. recovery.
  4544.  
  4545. John
  4546.  
  4547.  
  4548. Log-Number: 30867
  4549. Date: Mon, 8 Apr 91 08:42:55 PDT
  4550. From: ouster (John Ousterhout)
  4551. Subject: Recovery problem in "new" kernel?
  4552.  
  4553. When I came in today tyranny was in another infinite recovery loop,
  4554. printing messages like the following:
  4555.  
  4556. <consist done> 4/8/91 6:50:29 allspice (14) RPC timed-out
  4557. Got error (30002) from consist reply on <10,90621>
  4558.  
  4559. Although I'm not certain, I think this may have been happening
  4560. ever since the Allspice reboot late Saturday afternoon.  If so,
  4561. then I think that the "new" kernel is 0-for-2 on recoveries after
  4562. Allspice crashes (it's possible that there was a time when it
  4563. recovered correctly, but I don't recall it).  Has anyone else
  4564. been having recovery problems with "new"?  If so, then perhaps
  4565. there is a new bug in the new kernel.
  4566.                     -John-
  4567.  
  4568.  
  4569. Log-Number: 30868
  4570. Subject: mail troubles
  4571. Date: Mon, 08 Apr 91 11:27:52 PDT
  4572. From: Mary Baker <mgbaker>
  4573.  
  4574. On Sunday I was unable to access my mail spool file, even though I was
  4575. told I had new mail when I logged in.  Today I can read mail, but there are
  4576. no messages from yesterday, so I'm concerned I lost some amount of mail.
  4577.  
  4578. Could somebody please remind me where the sprite log is so that I can at least
  4579. check it for any sprite messages from yesterday?
  4580.  
  4581. Mary
  4582.  
  4583.  
  4584. Log-Number: 30869
  4585. Subject: Yup - a lot of mail lost
  4586. Date: Mon, 08 Apr 91 11:35:26 PDT
  4587. From: Mary Baker <mgbaker>
  4588.  
  4589. Looking at the sprite log, it appears I didn't get most of Saturday's mail
  4590. either.  I hope nobody sent me anything I needed to see.
  4591.  
  4592. Mary
  4593.  
  4594.  
  4595. Log-Number: 30870
  4596. Subject: Re: Yup - a lot of mail lost 
  4597. Date: Mon, 08 Apr 91 11:55:16 PDT
  4598. From: Mike Kupfer <kupfer>
  4599.  
  4600. Also, checking the Sprite log shows that John O.'s response about the
  4601. network coprocessor was zapped--the log contains only the
  4602. message header.
  4603.  
  4604. mike
  4605.  
  4606.  
  4607. Log-Number: 30871
  4608. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  4609. Date: Mon, 8 Apr 1991 13:55:14 PDT
  4610. Subject: O_NDELAY and tar.gnu
  4611.  
  4612.  
  4613. I should have mentioned that in order to get the restore of
  4614. /sprite/src/kernel to work I had to modify "tar.gnu".  First of
  4615. all, why is there a "tar" and  a "tar.gnu"?  I thought we had agreed
  4616. to get rid of the former and rename the latter.  Can someone who
  4617. takes better notes a the Sprite meetings verify this?  It turns
  4618. out that tar.gnu would open files with the O_NDELAY flag.  On Sprite
  4619. this means that a write to a full cache returns EWOULDBLOCK (this
  4620. is also a bug).  Tar.gnu would then stop writing the file.  All of
  4621. our restored kernels were about 2 MB long, rather than 8-10 MB.
  4622. I installed a new tar.gnu that doesn't have this problem.  Note
  4623. that Mendel previously fixed this in tar, but didn't know about
  4624. tar.gnu.
  4625.  
  4626. John
  4627.  
  4628.  
  4629.  
  4630. Log-Number: 30872
  4631. Subject: more on raid1's hanging
  4632. Date: Mon, 08 Apr 91 15:30:00 PDT
  4633. From: Mike Kupfer <kupfer>
  4634.  
  4635. Sage was getting stuck accessing /r1 again.  When I put raid1 into the
  4636. debugger, I found that one process was waiting to get the handle for
  4637. /r1/mach3.0/ux.  The process that was holding the lock for "ux" was in
  4638. the block I/O code, waiting for a read to complete.  (Appended below
  4639. are excerpts from the gdb session.)  I couldn't think of anything else
  4640. to do except reboot raid1.
  4641.  
  4642. mike
  4643. --
  4644. (gdb) p Proc_Dump() 
  4645. Reading in symbols for procMisc.c...done.
  4646.  
  4647.       ID   wtd       user     kernel    event    state   name
  4648.    10000     0 [0,     0] [0,580000] f61fa290  waiting
  4649.    14d01     0 [0,     0] [5,960000] f8005570  waiting Rpc_Server
  4650. [...]
  4651.    14d10     0 [0,     0] [4,760000] f724a49c  waiting Rpc_Server
  4652. [...]
  4653.    14d17     0 [0,     0] [5, 60000] f724a49c  waiting Rpc_Server
  4654. [...]
  4655.    14d19     0 [0,     0] [5,240000] f724a49c  waiting Rpc_Server
  4656. [...]
  4657.    64d20     0 [0,     0] [1, 60000] f724a49c  waiting Rpc_Server
  4658. [...]
  4659.    34d3d     0 [0,     0] [0,340000] f724a49c  waiting Rpc_Server
  4660. [...]
  4661. (gdb) pid 0x19
  4662. Attaching process entry: 0x19
  4663. Kernel returns with signal (16) Interrupt Trap
  4664.  
  4665. Program received signal 2, Illegal Instruction Fault
  4666. #0  0xf600c6f0 in Mach_ContextSwitch ()
  4667. (gdb) bt
  4668. #0  0xf600c6f0 in Mach_ContextSwitch ()
  4669. #1  0xf60b80a0 in SyncEventWaitInt (...) (...)
  4670. #2  0xf60b6ae8 in Sync_SlowWait (...) (...)
  4671. #3  0xf605df78 in Fsutil_HandleFetch (...) (...)
  4672. #4  0xf605d870 in Fsutil_HandleInstall (...) (...)
  4673. #5  0xf60438ec in Fsio_LocalFileHandleInit (...) (...)
  4674. #6  0xf604405c in Fsio_FileReopen (...) (...)
  4675. #7  0xf6058680 in Fsrmt_RpcReopen (...) (...)
  4676. #8  0xf60ade88 in Rpc_Server (...) (...)
  4677. #9  0xf60b3310 in Sched_StartKernProc (...) (...)
  4678. #10 0xf60b3290 in Sched_StartKernProc (...) (...)
  4679. ERROR: invalid read address 0xa096dac
  4680.  
  4681. (gdb) up 3
  4682. Reading in symbols for fsutilHandle.c...done.
  4683. #3  0xf605df78 in Fsutil_HandleFetch (
  4684.   fileIDPtr=(struct Fs_FileID *) 0xf6c26758) (fsutilHandle.c line 578)
  4685. 578            (void) Sync_Wait(&hdrPtr->unlocked, FALSE);
  4686. (gdb) print *hdrPtr
  4687. $3 = {fileID = {type = 1, serverID = 77, major = 1, minor = 90833}, 
  4688.   flags = 3, unlocked = {waiting = 1}, refCount = 2, name = 0xf7283e28 "ux", 
  4689.   lruLinks = {prevPtr = 0xf727f898, nextPtr = 0xf7262a78}, 
  4690.   lockProcID = -165698184}
  4691. (gdb) print (Proc_ControlBlock *)hdrPtr.lockProcID
  4692. $4 = (struct Proc_ControlBlock *) 0xf61fa578
  4693. (gdb) print *$4
  4694. $5 = {links = {prevPtr = 0xf61d9b70, nextPtr = 0xf61fa860}, processor = 0, 
  4695.   state = PROC_WAITING, genFlags = 1, syncFlags = 0, schedFlags = 0, 
  4696.   exitFlags = 0, childListHdr = {prevPtr = 0xf61fa598, nextPtr = 0xf61fa598}, 
  4697.   childList = 0xf61fa598, 
  4698.   siblingElement = {links = {prevPtr = 0xf61fa2b0, nextPtr = 0xf61fa88c}, 
  4699.     procPtr = 0xf61fa578}, 
  4700.   familyElement = {links = {prevPtr = 0xffffffff, nextPtr = 0xffffffff},  
  4701.     procPtr = 0xf61fa578},
  4702.   processID = 85249, parentID = 65536, familyID = -1, userID = 0, 
  4703.   effectiveUserID = 0, event = -134195856, 
  4704.   eventHashChain = {links = {prevPtr = 0xf6102660, nextPtr = 0xf6102660}, 
  4705.     procPtr = 0xf61fa578},
  4706.   waitCondition = {waiting = 0}, lockedCondition = {waiting = 0}, 
  4707.   waitToken = 0, billingRate = 2, recentUsage = 0, weightedUsage = 0, 
  4708.   unweightedUsage = 0, 
  4709.   kernelCpuUsage = {ticks = {seconds = 5, microseconds = 960000}, 
  4710.     time = {seconds = 5, microseconds = 960000}}, 
  4711.   userCpuUsage = {ticks = {seconds = 0, microseconds = 0}, 
  4712.     time = {seconds = 0, microseconds = 0}}, 
  4713.   childKernelCpuUsage = {ticks = {seconds = 0, microseconds = 0}, 
  4714.     time = {seconds = 0, microseconds = 0}}, 
  4715.   childUserCpuUsage = {ticks = {seconds = 0, microseconds = 0}, 
  4716.     time = {seconds = 0, microseconds = 0}}, 
  4717.   numQuantumEnds = 0, numWaitEvents = 7852, schedQuantumTicks = 5, 
  4718.   machStatePtr = 0xf662ce48, vmPtr = 0xf62ccd90, fsPtr = 0xf6627988, 
  4719.   termReason = 0, termStatus = 0, termCode = 0, sigHoldMask = 256, 
  4720.   sigPendingMask = 0, 
  4721.   sigActions = {0, 2, 2, 2, 2, 1, 1, 2, 2, 5, 5, 6, 1, 6, 1, 1, 0, 0, 1, 6, 6, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0}, 
  4722.   sigMasks = {0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0}, 
  4723.   sigCodes = {0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0}, 
  4724.   sigFlags = 0, oldSigHoldMask = 0, sigAddr = 0, timerArray = 0xffffffff, 
  4725.   peerHostID = -1, peerProcessID = 4294967295, rpcClientProcess = 0xffffffff, 
  4726.   environPtr = 0xf62ccf38, argString = 0xf6434f50 "Rpc_Server", 
  4727.   lockInfo = {value = 0, name = 0xf60a0928 "Proc:perPCBlock", 
  4728.     holderPC = 0xf609ad4c "@", holderPCBPtr = 0xf6c14af0 "\366\035\233p\366\035\233p"}, 
  4729.   kcallTable = 0xf61dfda8, specialHandling = 0, Prof_Buffer = 0xffffffff, 
  4730.   Prof_BufferSize = 0, Prof_Offset = 0, Prof_Scale = 0, Prof_PC = 0, 
  4731.   remoteExecBuffer = 0xffffffff "", migCmdBuffer = 0xffffffff "", 
  4732.   migCmdBufSize = 0, migFlags = 0, 
  4733.   preEvictionUsage = {ticks = {seconds = 0, microseconds = 0}, 
  4734.     time = {seconds = 0, microseconds = 0}}, 
  4735.   unixErrno = 0, unixProgress = 0, 
  4736.   extraField = {0, 0, 33, 33, 3, 0, 1, 0, 0, 0}}
  4737. (gdb) print /x 85249
  4738. $6 = 0x00014d01
  4739. (gdb) pid 1
  4740. Attaching process entry: 0x1
  4741. Kernel returns with signal (16) Interrupt Trap
  4742.  
  4743. Program received signal 2, Illegal Instruction Fault
  4744. #0  0xf600c6f0 in Mach_ContextSwitch ()
  4745. (gdb) bt
  4746. #0  0xf600c6f0 in Mach_ContextSwitch ()
  4747. #1  0xf60b80a0 in SyncEventWaitInt (...) (...)
  4748. #2  0xf60b703c in Sync_SlowMasterWait (...) (...)
  4749. #3  0xf6016d1c in Dev_BlockDeviceIOSync (...) (...)
  4750. #4  0xf608faa0 in OfsDeviceBlockIO (...) (...)
  4751. #5  0xf608e774 in Ofs_FileDescFetch (...) (...)
  4752. #6  0xf60387e8 in Fsdm_FileDescFetch (...) (...)
  4753. #7  0xf60439ac in Fsio_LocalFileHandleInit (...) (...)
  4754. #8  0xf604b3a0 in FindComponent (...) (...)
  4755. #9  0xf604a67c in FslclLookup (...) (...)
  4756. #10 0xf604989c in FslclGetAttrPath (...) (...)
  4757. #11 0xf6056670 in Fsrmt_RpcGetAttrPath (...) (...)
  4758. #12 0xf60ade88 in Rpc_Server (...) (...)
  4759. #13 0xf60b3310 in Sched_StartKernProc (...) (...)
  4760. (gdb) up 3
  4761. Reading in symbols for devBlockDevice.c...done.
  4762. #3  0xf6016d1c in Dev_BlockDeviceIOSync (
  4763.   blockDevHandlePtr=(struct DevBlockDeviceHandle *) 0xf60de688, 
  4764.   requestPtr=(struct DevBlockDeviceRequest *) 0xf80055f8, 
  4765.   amountTransferredPtr=(ClientData) 0xf80055f4) (devBlockDevice.c line 268)
  4766. 268            Sync_MasterWait((&syncCmdData.wait),(&syncCmdData.mutex),FALSE);
  4767. (gdb) print syncCmdData
  4768. $7 = {mutex = {value = 0, name = 0xf6016b84 "BlockSyncCmdMutex", 
  4769.   holderPC = 0xf60b71f4 "\177\375U\013\001", 
  4770.   holderPCBPtr = 0xf61fa578 "\366\035\233p\366\037\250`"}, 
  4771.   wait = {waiting = 1}, done = 0, amountTransferred = 0, status = 0}
  4772. (gdb) frame 10
  4773. Reading in symbols for fslclDomain.c...done.
  4774. #10 0xf604989c in FslclGetAttrPath (
  4775.   prefixHandlePtr=(struct Fs_HandleHeader *) 0xf6c2b1b8, 
  4776.   relativeName=(char *) 0xf6628e48 "mach3.0/ux/server", 
  4777.   argsPtr=(char *) 0xf6628a48 "", 
  4778.   resultsPtr=(char *) 0xf8005d48 "\366c}\230\366c}\250", 
  4779.   newNameInfoPtrPtr=(struct Fs_RedirectInfo **) 0xf8005d3c) (fslclDomain.c line 248)
  4780. 248                &handlePtr, newNameInfoPtrPtr);
  4781. (gdb) print relativeName
  4782. $8 = (char *) 0xf6628e48 "mach3.0/ux/server"
  4783. (gdb) frame 3
  4784. #3  0xf6016d1c in Dev_BlockDeviceIOSync (
  4785.   blockDevHandlePtr=(struct DevBlockDeviceHandle *) 0xf60de688, 
  4786.   requestPtr=(struct DevBlockDeviceRequest *) 0xf80055f8, 
  4787.   amountTransferredPtr=(ClientData) 0xf80055f4) (devBlockDevice.c line 268)
  4788. 268            Sync_MasterWait((&syncCmdData.wait),(&syncCmdData.mutex),FALSE);
  4789. (gdb) print *blockDevHandlePtr
  4790. $9 = {blockIOProc = 0x9de3bf90, IOControlProc = 0x9a100019, 
  4791.   releaseProc = 0xd806201c, minTransferUnit = -771538944, 
  4792.   maxTransferSize = -2136842239, clientData = 0x280000b}
  4793. (gdb) x/i 0x9de3bf90
  4794. 0x9de3bf90:    ERROR: invalid read address 0x9de3bf90
  4795.  
  4796. (gdb) x/i 0xd806201c
  4797. 0xd806201c:    ERROR: invalid read address 0xd806201c
  4798.  
  4799. (gdb) print &Dev_BlockDeviceIOSync
  4800. $10 = (int (*)()) 0xf6016b98
  4801. (gdb) x/i 0xf6016b98
  4802. 0xf6016b98 <Dev_BlockDeviceIOSync>:    save sp,0xffffff70,sp
  4803. (gdb) print *requestPtr
  4804. $11 = {operation = 1, startAddress = 29765632, startAddrHigh = 0, 
  4805.   bufferLen = 4096, 
  4806.   buffer = 0xfa071000 "joel/162/ex61\".\nCan't read directory
  4807. \"./joel/162/ex62\".\nCan't read directory \"./joel/162/ex63\".\nCan't
  4808. read directory \"./joel/162/ex64\".\n0 errors found\nChecksum completed at Tue Dec 25 04:57:04 PST 199"..., 
  4809.   doneProc = 0xf60169e8, clientData = 0xf8005560, 
  4810.   ctrlData = {0, 0, 0, 134217728, -1, 0, -166819920, 0, 0, -167620776, 12, 0, 0, -134195584, 0, -160436504}}
  4811.  
  4812.  
  4813.  
  4814. Log-Number: 30874
  4815. Subject: more on raid1's hanging
  4816. Date: Wed, 10 Apr 91 22:00:20 PDT
  4817. From: Mike Kupfer <kupfer>
  4818.  
  4819.  
  4820. I once again managed to get raid1 stuck on /r1/mach3.0/ux.  As with
  4821. the previous message I sent out on this problem, the process that has
  4822. the handle locked is doing a get-attr-path on /r1/mach3.0/ux/server,
  4823. waiting in Dev_BlockDeviceIOSync for a read to complete, and its
  4824. blockDevHandlePtr has garbage function pointers.
  4825.  
  4826. mike
  4827.  
  4828.  
  4829. Log-Number: 30886
  4830. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  4831. Date: Mon, 15 Apr 1991 16:57:30 PDT
  4832. Subject: lost IO to cache block
  4833.  
  4834.  
  4835. Raid1 has been hanging up lately due to an IO to a cache block that
  4836. never completes.  A call is made to RaidBlockIOProc, but the callback
  4837. is never done.  Mike Kupfer tells me that the problem is very repeatable,
  4838. and it always involves the same directory/file. I seem to remember Mendel
  4839. saying something about this before, but I can't find a reference in the
  4840. sprite log.  Perhaps this is a hardware problem with the Jaguar boards?
  4841. If so, shouldn't we have some sort of timeout mechanism?  Perhaps we
  4842. should wait until Mendel gets back since he probably understands what's
  4843. going on.
  4844.  
  4845. John
  4846.  
  4847.  
  4848. Log-Number: 30873
  4849. Date: Tue, 9 Apr 91 10:39:20 PDT
  4850. From: mottsmth (Jim Mott-Smith)
  4851. Subject: Allspice crash
  4852.  
  4853.  
  4854. When I came in this morning at about 9 Allspice
  4855. was dead in the water with the following on the console:
  4856.  
  4857.     inetd[50e68] time/tcp accept: invalid arg
  4858.     Dirty blocks(2) after a checkpoint
  4859.     Fatal error: VmRawAlloc: Out of Memory
  4860.     Entering debugger with a Interrupt trap (16)
  4861.       exception at PC 0xf60be9c4
  4862.  
  4863. The entering debugger message was repeated a dozen times.
  4864. No console break-commands would do anything.
  4865. Kgcore from Ginger would not work.  It kept saying
  4866. 'timing out resending'.
  4867.  
  4868. So I rebooted Allspice according to the directions taped to the console.
  4869. -- Jim M-S
  4870.  
  4871.  
  4872. Log-Number: 30875
  4873. Subject: Sync_Wait can return wrong value
  4874. Date: Thu, 11 Apr 91 15:23:52 PDT
  4875. From: Mike Kupfer <kupfer>
  4876.  
  4877.  
  4878. There's a fair amount of kernel code that checks whether a wait on a
  4879. condition variable was interrupted by a signal.  Unfortunately, the
  4880. main "wait" primitive, SyncEventWaitInt, only checks for signals
  4881. before the context switch; it doesn't check after it wakes up again
  4882. and can therefore return the wrong value.
  4883.  
  4884. Also, a minor bug: the comment header for Sync_Wait is wrong, since
  4885. Sync_Wait is in fact supposed to return a meaningful value.
  4886.  
  4887. mike
  4888.  
  4889.  
  4890. Log-Number: 30877
  4891. Date: Fri, 12 Apr 91 09:11:00 PDT
  4892. From: bmiller (Bob Miller)
  4893. Subject: allspice
  4894.  
  4895.  
  4896. Allspice was "down" when I came in this morning.  The console was scrolling
  4897. continuously with "stale remote file handle" messages.  I reset it and
  4898. rebooted.
  4899.  
  4900. Bob
  4901.  
  4902.  
  4903. Log-Number: 30878
  4904. Date: Fri, 12 Apr 91 11:47:06 PDT
  4905. From: pmchen (Peter M. Chen)
  4906. Subject: messed up mail
  4907.  
  4908. My mail file had part of a postscript file in the middle.  I moved
  4909. /usr/spool/mail/pmchen to ~pmchen/tmp/badmail.
  4910.  
  4911. Pete
  4912.  
  4913.  
  4914. Log-Number: 30879
  4915. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  4916. Date: Fri, 12 Apr 1991 12:56:12 PDT
  4917. Subject: pmake problems
  4918.  
  4919.  
  4920. If I try to compile for the sun3 on a sun4c I get the following message:
  4921.  
  4922. tyranny<jhh 20> pmake sun3
  4923. --- .BEGIN ---
  4924. Sorry, the target machine (sun4) isn't in the list of
  4925. allowed machines (sun3).
  4926. exit 1
  4927. *** Error code 1
  4928.  
  4929. I'm trying to compile a command.
  4930.  
  4931. John
  4932.  
  4933.  
  4934. Log-Number: 30882
  4935. Subject: problem with signals on sun3 w/ new kernel
  4936. Date: Fri, 12 Apr 91 16:38:11 PDT
  4937. From: Mike Kupfer <kupfer>
  4938.  
  4939. The binary compatibility code for sun3s doesn't handle signals quite
  4940. right.  I can frequently (though not always) crash Emacs by running
  4941. the directory browser "dired".
  4942.  
  4943. I get syslog messages like
  4944.  
  4945.   Unix signal 20(17) to 5301e
  4946.   sp=9fd9fc, pc=5312c, ps=0, len=36 to 9fde9d8, exPc=5454e
  4947.   MachTrap: Bus error in user proc 5301E, PC=5316a, addr=14 BR Reg 80
  4948.  
  4949. signal 20 is SIGCHLD, and process 5301e is Emacs.  If I dired a
  4950. directory and don't see the "Unix signal" message, Emacs doesn't die.
  4951.  
  4952. mike
  4953.  
  4954.  
  4955. Log-Number: 30883
  4956. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  4957. Date: Fri, 12 Apr 1991 17:57:28 PDT
  4958. Subject: new disk problem fixed
  4959.  
  4960.  
  4961. I've tentatively fixed the problem with the big disks.  There are enough
  4962. sectors on the disk to overflow the offset field in the standard SCSI
  4963. read/write commands.  I had to modify the SCSI device driver to use
  4964. the extended read/write commands if the offset it too large.  The 
  4965. previous driver never checked that the offset fit, hence it would wrap
  4966. back to the beginning of the disk once it overflowed.   My changes are
  4967. in the uninstalled dev module.  I have the disks attached to jaywalk
  4968. where I'm running some testing programs to make sure it all works.
  4969.  
  4970. john
  4971.  
  4972.  
  4973. Log-Number: 30884
  4974. Subject: tokens not reported by ID database
  4975. Date: Sun, 14 Apr 91 13:01:19 PDT
  4976. From: Mike Kupfer <kupfer>
  4977.  
  4978. Sig_CheckForKill is called in sun4.md/machTrap.s.  "lid" lists it, but
  4979. "gid" does not.
  4980.  
  4981. mike
  4982.  
  4983.  
  4984. Log-Number: 30887
  4985. Date: Mon, 15 Apr 91 22:02:22 PDT
  4986. From: tve (Thorsten von Eicken)
  4987. Subject: executable on nfs-mounted disks
  4988.  
  4989. Why can't I execute a file on an nfs-mounted disk? Can this restriction be
  4990. removed? Thanks,
  4991.     TvE
  4992.  
  4993.  
  4994. Log-Number: 30888
  4995. Subject: g++
  4996. Date: Tue, 16 Apr 91 11:38:45 PDT
  4997. From: Mike Kupfer <kupfer>
  4998.  
  4999. [Sorry, I included Michial's message in my reply so that it would get
  5000. logged, then I went and cc'd the wrong list.]
  5001.  
  5002. ------- Forwarded Message
  5003.  
  5004. Date: Mon, 15 Apr 91 17:21:15 PDT
  5005. >From: gunter (Michial Gunter)
  5006. To: root
  5007. Subject: g++
  5008.  
  5009. I am new to Sprite and don't really know how much effort is
  5010. made to support various things. 
  5011.  
  5012. In particular, is there any support for g++?
  5013. If so:
  5014.  
  5015. g++  -g -Wall -msun4 -c ch_error.cc
  5016. g++: installation problem, cannot exec g++1.sparc: no such file or directory
  5017.  
  5018. and
  5019.  
  5020. g++  -g -Wall -mds3100 -c main.cc
  5021. /sprite/lib/include/g++/stdarg.h:39: /sprite/lib/include/ds3100.md/stdarg.h: no
  5022. such file or directory
  5023.  
  5024.  
  5025.             thanks,
  5026.             mike
  5027.  
  5028. ------- End of Forwarded Message
  5029.  
  5030.  
  5031.  
  5032. Log-Number: 30889
  5033. Subject: proc flag used as state
  5034. Date: Tue, 16 Apr 91 14:00:00 PDT
  5035. From: Mike Kupfer <kupfer>
  5036.  
  5037. syncLock.c has some code
  5038.  
  5039.     switch (procPtr->state) {
  5040.         case PROC_WAITING:
  5041.             break;
  5042.         case PROC_MIGRATING:
  5043.         panic("Can't handle waking up a migrating proc.\n");
  5044.             break;
  5045.  
  5046. However, PROC_MIGRATING is a flag, not a state value.  I assume I can
  5047. just flush this case of the switch...?
  5048.  
  5049. mike
  5050.  
  5051.  
  5052. Log-Number: 30890
  5053. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5054. Date: Tue, 16 Apr 1991 18:04:59 PDT
  5055. Subject: bcopy broken
  5056.  
  5057.  
  5058. Bcopy doesn't seem to work correctly on the ds5000.  The kernel does
  5059. a bcopy very early in the boot.  This bcopy only copied the first
  5060. three bytes correctly, the rest were garbage.  I replaced the symbolic
  5061. link in /sprite/src/kernel/libc/ds5000.md with a copy of bcopy.c, then
  5062. removed the stuff about CheckAccessible. Voila it works.  I'm going to 
  5063. leave it that way for now since the ds5000 doesn't have any installed
  5064. sources. 
  5065.  
  5066. John
  5067.  
  5068.  
  5069. Log-Number: 30891
  5070. Date: Wed, 17 Apr 91 08:18:14 PDT
  5071. From: tve (Thorsten von Eicken)
  5072. Subject: lfs disk full still at 75% !!!
  5073.  
  5074. We need more than 75% of our 1 disks! Mendel, when can you please change that?
  5075.     TvE
  5076.  
  5077.  
  5078. Log-Number: 30892
  5079. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5080. Date: Wed, 17 Apr 1991 11:00:57 PDT
  5081. Subject: lfs died
  5082.  
  5083.  
  5084. Lfs died when the disk filled up and it couldn't modify the descriptor map.
  5085. I realize that Sprite in general isn't very robust when the disk fills up,
  5086. but maybe this is easy to fix?
  5087.  
  5088. John
  5089.  
  5090.  
  5091. Log-Number: 30893
  5092. Date: Wed, 17 Apr 91 11:55:40 PDT
  5093. From: tve (Thorsten von Eicken)
  5094. Subject: ipserver on assault dead? I can't rlogin.
  5095.  
  5096.  
  5097.  
  5098.  
  5099. Log-Number: 30896
  5100. From: Fred Douglis <douglis@cs.vu.nl>
  5101. Subject: Re: ipserver on assault dead? I can't rlogin. 
  5102. Date: Wed, 17 Apr 91 21:00:54 +0200
  5103.  
  5104. Earlier today, I noticedthat several machines seemed to have fallen
  5105. into a state where I could not rlogin to them but I could telnet in.
  5106. This is weird, and suggests some weirdness with inetd.
  5107.  
  5108. Fred
  5109.  
  5110.  
  5111. Log-Number: 30894
  5112. Subject: /sprite/src/kernel/libc/symm.md is broken
  5113. Date: Wed, 17 Apr 91 11:57:24 PDT
  5114. From: Mike Kupfer <kupfer>
  5115.  
  5116. If you do "ls" or "echo *", you get 
  5117.  
  5118.   Assertion failed: (dp->d-_namlen <= 255)
  5119.  
  5120. from the readdir package.
  5121.  
  5122. "pwd" yields
  5123.  
  5124.   pwd: getwd: can't open ..
  5125.  
  5126. mike
  5127.  
  5128.  
  5129. Log-Number: 30895
  5130. Date: Wed, 17 Apr 91 11:58:35 PDT
  5131. From: tve (Thorsten von Eicken)
  5132. Subject: /sprite/spool/msgs: no such file or directory
  5133.  
  5134.  
  5135.  
  5136.  
  5137. Log-Number: 30897
  5138. Subject: Re: /sprite/spool/msgs: no such file or directory 
  5139. Date: Wed, 17 Apr 91 12:33:26 PDT
  5140. From: Mike Kupfer <kupfer>
  5141.  
  5142. The nfsmount of /sprite/spool/msgs is failing:
  5143.  
  5144.   <11>Apr 17 12:28:28 syslog: nfsmount: Pfs_Open: "/sprite/spool/msgs" 
  5145.   service failed, errno 26
  5146.  
  5147. whatever that means.
  5148.  
  5149. I restarted the IP server, but rlogin still fails.  I think somebody
  5150. should just reboot assault, especially seeing as how it's not yet
  5151. running the 1.089 kernel.
  5152.  
  5153. mike
  5154.  
  5155.  
  5156. Log-Number: 30898
  5157. Date: Wed, 17 Apr 91 12:42:45 PDT
  5158. From: tve (Thorsten von Eicken)
  5159. Subject: rlogind unhappy on assault
  5160.  
  5161. assault-8# /sprite/daemons/rlogind
  5162.  
  5163. Segmentation violation
  5164. assault-9#
  5165.  
  5166.  
  5167. Log-Number: 30900
  5168. Subject: disk error on assault
  5169. Date: Wed, 17 Apr 91 14:12:20 PDT
  5170. From: Mike Kupfer <kupfer>
  5171.  
  5172. Just before lunch I noticed the following error message on assault's
  5173. console:
  5174.  
  5175.   SCSI disk SII#0 Target LUN 0 error: media error - info bytes 0x0
  5176.     0x2 0x94 0x58
  5177.   File blk 74 phys blk 74188: 
  5178.   4/17/91 12:06:35 Sprite Host <25> File "rchip.cif" <3,24998>
  5179.     Write-back failed: DISK ERROR
  5180.  
  5181. mike
  5182.  
  5183.  
  5184. Log-Number: 30901
  5185. Subject: allspice crash
  5186. Date: Wed, 17 Apr 91 14:23:31 PDT
  5187. From: Mary Baker <mgbaker>
  5188.  
  5189. Allspice crashed with a page fault in Fs_ReadLinkStub on line 1662 in
  5190. fsSysCall.c where it accesses the user's buffer.  For all the other user
  5191. addresses it accesses, the procedure uses routines such as Proc_ByteCopy
  5192. that call Vm_CopyIn and stuff so that page faults are okay.  But this buffer,
  5193. it just goes and touches with no assurances.  This sounds like a problem to me,
  5194. unless somebody can tell me otherwise.
  5195.  
  5196. Mary
  5197.  
  5198.  
  5199. Log-Number: 30902
  5200. Subject: mop error messages
  5201. Date: Wed, 17 Apr 91 20:55:14 PDT
  5202. From: Mike Kupfer <kupfer>
  5203.  
  5204. I tried booting arson using mop and got a bunch of error messages (I
  5205. forgot to write down the exact message).  There are some corresponding
  5206. error messages in violence's syslog, like:
  5207.  
  5208.   [Wed Apr 17 20:20:32 1991]: Out of sequence request 1 vs 2 from 
  5209.     7ddffab6:100061d4:1000c8d8:1000b238:40051c:09
  5210.   [Wed Apr 17 20:20:32 1991]: Out of sequence request 2 vs 3 from 
  5211.     7ddffab6:100061d4:1000c8d8:1000b238:40051c:09
  5212.   [Wed Apr 17 20:20:33 1991]: Out of sequence request 3 vs 4 from 
  5213.     7ddffab6:100061d4:1000c8d8:1000b238:40051c:09
  5214.  
  5215. (1) Is there some resynchronization mechanism in the mop protocol?  
  5216.  
  5217. (2) If I get errors like this should I just retry, or do I need to
  5218. restart the mop server? 
  5219.  
  5220. (3) Is there some reason why the mop server is on violence instead of
  5221. assault?
  5222.  
  5223. mike
  5224.  
  5225.  
  5226. Log-Number: 30903
  5227. Date: Thu, 18 Apr 91 09:50:36 PDT
  5228. From: tve (Thorsten von Eicken)
  5229. Subject: unfsd
  5230.  
  5231. I tried on shallot: mount assault:/graphics /mnt.
  5232. The mount takes 1-2 minutes, a following df takes about 5 minutes...
  5233. Is there hope to fix it?
  5234.     TvE
  5235.  
  5236.  
  5237. Log-Number: 30904
  5238. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5239. Date: Thu, 18 Apr 1991 11:15:41 PDT
  5240. Subject: pmake installall broken
  5241.  
  5242.  
  5243. I thought that "pmake installall" would do all machines that it is appropriate
  5244. to install for on the host, ie sun3, sun4, sun4c on a sun4c, and ds3100,
  5245. ds5000 on a ds3100.  Instead, if I do it on a sun4c the first thing
  5246. it does it try to compile for a ds5000, which obviously isn't going
  5247. to work.
  5248.  
  5249. John
  5250.  
  5251.  
  5252.  
  5253. Log-Number: 30908
  5254. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5255. Date: Fri, 19 Apr 1991 12:56:40 PDT
  5256. Subject: weird filesystem (lfs?) problem
  5257.  
  5258.  
  5259. Jaywalk had a disk at target 0, with an LFS on it.  During the boot the
  5260. kernel opens up this disk to see if it is the root disk.  Since it
  5261. isn't it detaches it and continues the boot.  Once the machine came
  5262. up I used the "prefix" command to attach the disk under a temporary
  5263. prefix.  Somehow the kernel ended up thinking that this filesystem
  5264. was remote, so that the block cleaner would try to write the blocks
  5265. by doing an RPC to jaywalk itself.  I'm not sure how this could
  5266. happen.  This bug shouldn't be a problem until we switch more of our
  5267. filesystems over to LFS.
  5268.  
  5269. Jaywalk was running kernel 1.090.  The disk was one of the new micropolis
  5270. disks.
  5271.  
  5272. John
  5273.  
  5274.  
  5275. Log-Number: 30909
  5276. Date: Sat, 20 Apr 91 13:48:57 PDT
  5277. From: s244al@stat.Berkeley.EDU (Michial Gunter)
  5278. Subject: Getting to know 
  5279.  
  5280. I initially send the below message concerning g++ to root.  It would be
  5281. nice if there new accounts were configured with a README file including
  5282. such things as where to send mail in the event of different
  5283. problems/requests.
  5284.  
  5285. I don't know what is planned for Sprite.  (Though, if y'all have the
  5286. time I wouldn't ming knowing.)  Knowing this, as well having some knowledge
  5287. of the degree of support given for various things would be helpful.
  5288. To this end, it would be help if there were an introduction to Sprite
  5289. online (perhaps ``man sprite'' should produce something other than 
  5290. No manual entry for "sprite".)  An introduction with references to
  5291. other documents would be helpful.  A document detailing
  5292. how Sprite differs from (improves upon!) other versions of Unix would
  5293. be particularly useful.
  5294.  
  5295. The documentation for cc needs to be updated:
  5296.  
  5297.      -mtm Compile code for the target machine given by tm.  If
  5298.           this switch is not given, then the default is to com-
  5299.           pile for the machine given by the MACHINE environment
  5300.           variable.  The following machine types are currently
  5301.           defined:  68000, 68010, and sun2 (all of which compile
  5302.           for the 68000 instruction set);  68020 and sun3 (both
  5303.           of which compile for the 68020 instruction set); and
  5304.           spur.  See below for additional -m switches to control
  5305.           other machine-dependent features.
  5306.  
  5307. There is no manual entry for g++.
  5308.  
  5309. I am willing to do the things I am requesting.  I will
  5310. become available to do so after May 18 (the date of my last final.)
  5311. I should be able to contribute some time throughout the summer
  5312. (my obligation now include only a couple of math classes.)
  5313.  
  5314.  
  5315. Here is my initial message:
  5316.  
  5317. > Date: Mon, 15 Apr 91 17:21:15 PDT
  5318. > From: gunter (Michial Gunter)
  5319. > To: root
  5320. > Subject: g++
  5321. > I am new to Sprite and don't really know how much effort is
  5322. > made to support various things. 
  5323. > In particular, is there any support for g++?
  5324. > If so:
  5325. > g++  -g -Wall -msun4 -c ch_error.cc
  5326. > g++: installation problem, cannot exec g++1.sparc: no such file or directory
  5327. > and
  5328. > g++  -g -Wall -mds3100 -c main.cc
  5329. > /sprite/lib/include/g++/stdarg.h:39: /sprite/lib/include/ds3100.md/stdarg.h: no
  5330. > such file or directory
  5331. >             thanks,
  5332. >             mike
  5333.  
  5334. and Mike Kupfer's reply
  5335.  
  5336. > Return-Path: <kupfer@allspice.Berkeley.EDU>
  5337. > To: gunter@allspice.Berkeley.EDU
  5338. > Cc: spriters@allspice.Berkeley.EDU
  5339. > Subject: Re: g++ 
  5340. > In-Reply-To: Your message of Mon, 15 Apr 91 17:21:15 -0700
  5341. > Date: Tue, 16 Apr 91 11:35:45 PDT
  5342. > From: Mike Kupfer <kupfer@allspice.Berkeley.EDU>
  5343. > Have you gotten a response yet about your g++ questions?  I don't use
  5344. > g++, so I don't know what is causing the problems you're having. 
  5345. > However, I do know that people have done work using C++ on Sprite.  If
  5346. > you're still having problems, we should be able to track them down.
  5347. > Also, please submit future bug reports to "bugs", not root.  This
  5348. > guarantees that the bug will be discussed at the weekly Sprite
  5349. > meeting.
  5350. > thanks,
  5351. > mike
  5352. > --
  5353.  
  5354. I have gotten no further response.
  5355.  
  5356.  
  5357.         thank you very much,
  5358.         mike
  5359.         gunter@sprite
  5360.  
  5361.  
  5362.  
  5363.  
  5364.  
  5365. Log-Number: 30910
  5366. Date: Sat, 20 Apr 91 14:17:29 PDT
  5367. From: elm (ethan miller)
  5368. Subject: what's the story with /r1?
  5369.  
  5370. raid1 is up (at least it responds to pings), but I can't access /r1.
  5371. Is something being done about this?  Is the condition permanent (ie,
  5372. should I look elsewhere for the storage space I need)?
  5373.  
  5374. ethan
  5375.  
  5376.  
  5377. Log-Number: 30911
  5378. Subject: anise having troubles?
  5379. Date: Sat, 20 Apr 91 15:22:45 PDT
  5380. From: Mary Baker <mgbaker>
  5381.  
  5382. Anise seems to be in an infinite cleaning loop, if that's possible.
  5383. It's repeatedly saying:
  5384.  
  5385. /user5: Cleaning started - 7 segs
  5386. Can't fetch handle for file 28341 for cleaning
  5387.     (7 more of these messages for different file numbers)
  5388. /user5: Cleaned 0 segments in 0 segments
  5389.  
  5390.  
  5391. I'm not sure what's the right thing to do about this.
  5392.  
  5393. Mary
  5394.  
  5395.  
  5396. Log-Number: 30912
  5397. Subject: more about anise
  5398. Date: Sat, 20 Apr 91 15:48:23 PDT
  5399. From: Mary Baker <mgbaker>
  5400.  
  5401. While anise was having its problems, I noticed that the daily dumps were still
  5402. running on allspice and that it was still trying to dump /user5 on anise.
  5403. I rebooted anise.  So far it has not restarted the cleaning problem, and
  5404. allspice was able to finish dumping /user5.
  5405.  
  5406. Mary
  5407.  
  5408.  
  5409. Log-Number: 30913
  5410. Subject: mmap man page
  5411. Date: Sat, 20 Apr 91 16:21:00 PDT
  5412. From: Mary Baker <mgbaker>
  5413.  
  5414. Mark Sullivan reports that the mmap() man page is incorrect.  It says
  5415. that mmap returns 0 if successful and -1 if not.  It actually
  5416. returns the address of the mmap'd region.  I looked at the man page and
  5417. it has a warning saying that it may not be correct.  Is there a good reason
  5418. why it shouldn't be made correct?
  5419.  
  5420. Mary
  5421.  
  5422.  
  5423. Log-Number: 30914
  5424. Subject: panic on sched_MutexPtr
  5425. Date: Sat, 20 Apr 91 16:36:09 PDT
  5426. From: Mary Baker <mgbaker>
  5427.  
  5428. Jaywalk died while trying to put a process into the debug state.  It panic'd
  5429. on a MASTER_LOCK of the scheduler mutex in Sync_SlowBroadcast.  This was
  5430. about the same time that Mark executed a "killdebug" which successfully killed
  5431. 2 processes and then the machine died.  The process that was trying to go
  5432. onto the debug list was "make."  I'm sorry I don't have a stack trace, but
  5433. I was debugging from home and my connection got all messed up.
  5434.  
  5435.  
  5436. Mary
  5437.  
  5438.  
  5439. Log-Number: 30915
  5440. Date: Sat, 20 Apr 91 17:40:22 PDT
  5441. From: sullivan (Mark Sullivan)
  5442. Subject: dgram socket bug
  5443.  
  5444.  
  5445. I have a routine for reading a packet from a socket.  It uses
  5446. the recvfrom() system call with the "peek" flag on to read a 
  5447. fixed size packet hdr.  The packet hdr contains a length field.
  5448. The length field is used to determine how many bytes to read
  5449. in a second recvfrom() call with the "peek" flag off.
  5450.  
  5451. In two programs that use this same routine for datagram sockets,
  5452. the socket seems to go into permanent peek mode after the first
  5453. peek.  One packet is sent to the socket.  The program reads that
  5454. one packet as described above.  The program makes a select() call.  
  5455. It finds another copy of the packet at the socket.  Reads it in again.  
  5456. Continues like this indefinitely.  I am certain that the sender
  5457. only sends one packet.
  5458.  
  5459. The bug is repeatable and occurred in two different programs using the 
  5460. same library routine.  The program works correctly on ultrix.  The bug 
  5461. went away on Sprite when I removed the first recvfrom() and simply 
  5462. read the entire packet in at once.  
  5463.  
  5464.  
  5465. Mark
  5466.  
  5467.  
  5468. Log-Number: 30916
  5469. Subject: jaywalk crash again
  5470. Date: Sat, 20 Apr 91 17:49:47 PDT
  5471. From: Mary Baker <mgbaker>
  5472.  
  5473. I rebooted jaywalk with the "new" 1.091 kernel.  Mark was using it
  5474. and it crashed again.  A process was trying to go onto the debug list and
  5475. got hit with an interrupt while context switching.  So it panic'd on
  5476. the MASTER_LOCK of sched_MutexPtr in Sched_GatherProcessInfo.  The PC of
  5477. the holder of the lock was in Sched_LockAndSwitch.  This is ungood.
  5478.  
  5479. #0  panic (__builtin_va_alist=-167089713) (sysPrintf.c line 220)
  5480. #1  0xf60a6d58 in Sched_GatherProcessInfo (...) (...)
  5481. #2  0xf60b5058 in Timer_CallBack (...) (...)
  5482. #3  0xf60b620c in Timer_TimerServiceInterrupt (...) (...)
  5483. #4  0xf600fba8 in MachHandleInterrupt ()
  5484. #5  0xf600c7ac in Mach_ContextSwitch2 ()
  5485. #6  0xf60a71a8 in Sched_ContextSwitchInt (...) (...)
  5486. #7  0xf60a7f68 in Sched_ContextSwitch (...) (...)
  5487. #8  0xf608529c in Proc_SuspendProcess (...) (...)
  5488. #9  0xf60aaf54 in Sig_Handle (...) (...)
  5489. #10 0xf600ea7c in MachUserAction (...) (...)
  5490. #11 0xf6010978 in MachReturnFromTrap ()
  5491. #12 0x3e734 in ?? ()
  5492. #13 0x3ff24 in ?? ()
  5493. #14 0x25214 in ?? ()
  5494. #15 0x24618 in ?? ()
  5495. #16 0x63c0 in ?? ()
  5496. #17 0x12404 in ?? ()
  5497. #18 0x16780 in ?? ()
  5498. #19 0x5c98c in ?? ()
  5499.  
  5500.  
  5501.  
  5502. Mary
  5503.  
  5504.  
  5505. Log-Number: 30918
  5506. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5507. Date: Sun, 21 Apr 1991 22:01:25 PDT
  5508. Subject: allspice crash
  5509.  
  5510.  
  5511. Allspice crashed last evening after I booted the new 1.091 kernel.
  5512. It died in OfsBlockFree, trying to free a bogus block number
  5513. (-421800374).  If I may complain about the sun4 debugger for a moment
  5514. it wouldn't let me print out the value of "cylinderNum" in that routine,
  5515. complaining that there was 'No symbol "cylinderNum" in current context.'.
  5516. Also, in the calling routine Ofs_FileTrunc I was unable to print out
  5517. the value of the block number because the blockAddrPtr of the indexInfo
  5518. structure was a bogus value, although it must have worked when the kernel
  5519. was running since it didn't die there.  Maybe this thing is a pointer into
  5520. the block cache?  Right now allspice is running an old kernel.
  5521.  
  5522. John
  5523.  
  5524.  
  5525. Log-Number: 30919
  5526. Subject: uniq doesn't handle long lines well
  5527. Date: Mon, 22 Apr 91 12:12:52 PDT
  5528. From: Mike Kupfer <kupfer>
  5529.  
  5530.  
  5531. I put uniq into an infinite loop processing some ID database
  5532. references.  I suspect the problem is that some of the lines were
  5533. longer than the buffers in uniq, and uniq doesn't check for buffer
  5534. overflow.  There is a version of uniq on okeeffe that doesn't have
  5535. this bug (and it seems to be non-AT&T code, as well).
  5536.  
  5537. mike
  5538.  
  5539.  
  5540. Log-Number: 30920
  5541. Date: Mon, 22 Apr 91 14:31:55 PDT
  5542. From: dlong (Dean Long)
  5543. Subject: DevTtyInit in devTtyAttach.c
  5544.  
  5545. DevTtyInit() fails to get the console type on sun4c's with newer PROMs.  I
  5546. suggest the following patch:
  5547.  
  5548. *** ../../../1.089/dev/sun4c.md/devTtyAttach.c  Fri Oct  5 18:11:20 1990
  5549. --- devTtyAttach.c      Sat Jan 19 17:59:02 1991
  5550. ***************
  5551. *** 132,138 ****
  5552. --- 132,142 ----
  5553.        */
  5554.  
  5555.   #ifndef sun2
  5556. + #ifdef sun4c
  5557. +     promConsoleType = *romVectorPtr->inSource;
  5558. + #else
  5559.       promConsoleType = ((struct eeprom *) EEPROM_BASE)->ee_diag.eed_console;
  5560. + #endif /* sun4c */
  5561.       switch (promConsoleType) {
  5562.         case EED_CONS_TTYA:
  5563.             consoleUnit = 1;
  5564.  
  5565.  
  5566.  
  5567. Log-Number: 30921
  5568. Subject: problem with X cmds location change?
  5569. Date: Mon, 22 Apr 91 16:24:54 PDT
  5570. From: Mary Baker <mgbaker>
  5571.  
  5572. Buzz, a color sun3, can no longer run X since we've moved the cmds out of
  5573. cmds.new and to their proper place.  Can anyone think of any changes or
  5574. mess-ups that might have occurred?  Buzz used to run X okay on 1.089 a
  5575. couple of weeks ago.  I rebooted it with 1.089 and it no longer works.
  5576.  
  5577. Mary
  5578.  
  5579.  
  5580. Log-Number: 30925
  5581. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5582. Date: Tue, 23 Apr 1991 11:37:10 PDT
  5583. Subject: allspice problems
  5584.  
  5585.  
  5586. You may have noticed that allspice has been having some problems lately.
  5587. Somehow a file handle gets locked, and everything piles up on it.
  5588. This happened when allspice was running the 1.084 kernel, so I don't think
  5589. it is something in the new kernel.  The problem last night was caused
  5590. by a process that had locked a file handle, and was waiting for a
  5591. LFS checkpoint to complete: Sync_Wait(&lfsPtr->checkPointWait, FALSE).
  5592. I was unable to determine why the checkPointWait condition was wedged.
  5593.  
  5594. John
  5595.  
  5596.  
  5597. Log-Number: 30926
  5598. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5599. Date: Tue, 23 Apr 1991 13:23:02 PDT
  5600. Subject: more on allspice problems
  5601.  
  5602.  
  5603. The problems with allspice seem to be limited to /sprite/src/kernel.
  5604. I'm not sure why, but my guess is it has something to do with LFS since
  5605. it is the only LFS disk on allspice.   We are trying to come up with
  5606. a plan of action, but in the meantime we are going to let allspice
  5607. limp along.  
  5608.  
  5609. John
  5610.  
  5611.  
  5612. Log-Number: 30927
  5613. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5614. Date: Tue, 23 Apr 1991 22:01:36 PDT
  5615. Subject: lfs error
  5616.  
  5617.  
  5618. Anise died because it had "read from a clean segment".  My guess is that
  5619. a segment was marked clean that really wasn't, and that this is bad.
  5620. It happened right after a reboot after a crash so perhaps things got
  5621. kind of screwed up on the disk.  It looked continuable so I continued it.
  5622. It then died with "LfsSetSegUsage called on a clean segment".  
  5623. I suppose this is related to the first bug.  I continued this one too.
  5624. More news as it happens.
  5625.  
  5626. John
  5627.  
  5628.  
  5629.  
  5630. Log-Number: 30928
  5631. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5632. Date: Tue, 23 Apr 1991 22:08:33 PDT
  5633. Subject: anise crash
  5634.  
  5635.  
  5636. Anise wedged up earlier this evening.  The problem was a file handle
  5637. that was left locked by an RPC server.  I think fixing this bug should
  5638. be a real high priority task.  I might be able to look at it starting
  5639. Thursday afternoon, but don't let that stop anyone else from volunteering.
  5640.  
  5641. John
  5642.  
  5643.  
  5644. Log-Number: 30930
  5645. Date: Wed, 24 Apr 91 15:19:00 PDT
  5646. From: tve (Thorsten von Eicken)
  5647. Subject: nfsmount performance
  5648.  
  5649. I did a few tests (wouldn't call them benchmarks).
  5650. The test is reading a 1.2 Mb file once (/sprite/src/benchmarks/read).
  5651. The results I got are as follows (client/server):
  5652.     crackle/anise: 400Kb/s, 5Mb/s (cached).
  5653.     crackle/woosh: 118Kb/s (fresh nfsmount), 15Kb/s (worn-out nfsmount),
  5654.     crackle/ginger: 40Kb/s, 5Kb/s (loaded assault???)
  5655.     shallot/woosh: 200Kb/s, 6Mb/s (cached)
  5656.     shallot/ginger: 71Kb/s, 5Mb/s (cached)
  5657. I conclude that the large read performance of nfsmount can be roughly 1/2
  5658. that of nfs, but that currently it gets trashed because of no caching and
  5659. because it seems to wear-out, i.e. the process size grows and it gets
  5660. slower. I'm also astonished that woosh, a sun386i responds faster than ginger.
  5661.     TvE
  5662. NB: dunno if this should have gone to spriters rather than bugs...
  5663.  
  5664.  
  5665. Log-Number: 30931
  5666. Date: Thu, 25 Apr 91 00:03:41 PDT
  5667. From: shirriff (Ken Shirriff)
  5668. Subject: /dev/tty
  5669.  
  5670. Two problems:
  5671. First, bogus /dev/tty files sometimes show up and cause problems.  e.g.
  5672. -rw-rw-r--  1 ouster        521 Apr 19 09:28 /dev/tty
  5673. Second, for Unix compatibility, we should probably have /dev/tty.
  5674.  
  5675. Ken
  5676.  
  5677.  
  5678. Log-Number: 30933
  5679. Date: Thu, 25 Apr 91 10:37:45 PDT
  5680. From: jhh (John H. Hartman)
  5681. Subject: lfs bug
  5682.  
  5683.  
  5684. The lfs disk /user5 somehow got a corrupted checkpoint. I assume it was
  5685. due to a crash during the checkpoint operation.  Attaching the disk would
  5686. cause the kernel to crash.  We tried to run lfscheck on the disk, but 
  5687. this died also.  We then ran lfsrebuild.  This printed lots of error and
  5688. warning messages, but did manage to complete.  We then reattached the disk
  5689. and it looked ok, but the following error message appeared on the syslog:
  5690.  
  5691. LfsOkToRead read over segment boundary.
  5692.  
  5693. Since this is a printf and not a panic I assume that it isn't critical.
  5694. We then detached the disk and ran lfsrebuild again, just to see what it
  5695. would do, and this time it died.  So, I'm not sure what state /user5 is
  5696. is, but I don't know what else to do except to attach it and see what
  5697. happens.
  5698.  
  5699. Just an LFS novice,
  5700. John
  5701.  
  5702.  
  5703.  
  5704. Log-Number: 30934
  5705. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5706. Date: Thu, 25 Apr 1991 11:42:19 PDT
  5707. Subject: unknown file system problem
  5708.  
  5709.  
  5710. I got the following message concerning a new rz57 disk attached to
  5711. a ds5000, with an LFS on it.  Obviously any one of these three 
  5712. could be at fault.
  5713.  
  5714. John
  5715.  
  5716. > From jclee Thu Apr 25 02:56:35 1991
  5717. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  5718. >     id AA863306; Thu, 25 Apr 91 02:56:28 PDT
  5719. > Date: Thu, 25 Apr 91 02:56:28 PDT
  5720. > From: jclee (James C. Lee)
  5721. > Message-Id: <9104250956.AA863306@sprite.Berkeley.EDU>
  5722. > To: jhh
  5723. > Subject: bug on LFS
  5724. > John,
  5725. > I think I've discovered a bug on your file system. Somehow I was
  5726. > experiencing delays of ~10 seconds for "ls" in /scratch5/jclee/traces
  5727. > earlier. The problem was on the entire file system, but rather only
  5728. > that directory. I "cd"ed to /scratch5/jclee and "ls" works in normal
  5729. > speed. I also tried "ls" in /scratch5/jclee/traces from different
  5730. > machines just to make sure that it's the machine-dependent, and indeed
  5731. > it's not machine-dependent.
  5732. > I should've left the directory untouched for you to see, but I wanted to
  5733. > get my project going, and so I tinckled around with it. I "mv" all the
  5734. > files in /scratch5/jclee/traces to another diretory and then "mv" them
  5735. > back, and everything's back to normal.
  5736. > I don't know the details of LFS, but it seems that it may be that info
  5737. > on directories were scattered around the tracks? I was creating multiple
  5738. > *huge* files when the symptom first appeared. Since I heard that LFS
  5739. > writes where the head is, this might cause fragmented directory info?
  5740. > Anyway, sorry that the bug is not repeatable. Hopefully the description
  5741. > helps....
  5742. > James
  5743.  
  5744.  
  5745.  
  5746. Log-Number: 30935
  5747. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5748. Date: Thu, 25 Apr 1991 11:43:27 PDT
  5749. Subject: fscheck.c truncated
  5750.  
  5751.  
  5752. The file /sprite/src/cmds/fscheck/fscheck.c was truncated.  I restored
  5753. it via RCS, and moved the bad copy to fscheck.c.bad.
  5754.  
  5755. John
  5756.  
  5757.  
  5758. Log-Number: 30939
  5759. Subject: RPC sanity check failure on murder
  5760. Date: Thu, 25 Apr 91 18:07:33 PDT
  5761. From: Mike Kupfer <kupfer>
  5762.  
  5763. Murder died (while groveling through a dump tape :-( ) with
  5764.  
  5765.   RpcSanityCheck: packet too short, 98 < 126594
  5766.   Rpc_SanityCheck: client -10816301, server -2145348087:
  5767.   Fatal Error: Sanity check failed on outgoing packet.
  5768.  
  5769. It didn't respond to "kmsg -v", so I rebooted it.
  5770.  
  5771. mike
  5772.  
  5773.  
  5774. Log-Number: 30940
  5775. Date: Thu, 25 Apr 91 21:00:50 PDT
  5776. From: root (The Sprite God)
  5777. Subject: tar.gnu in debugger
  5778.  
  5779. Tar.gnu went into the debugger while we were trying to restore /user5.
  5780.  
  5781. The problem is that extract() has this structure called hstat which it
  5782. passes on the stack to SpriteMakePseudoDev, but SpriteMakePseudoDev thinks
  5783. it got a pointer to hstat.  I'll try to fix it and start up the restore
  5784. again.  If it's not one thing, it's another...
  5785.  
  5786. Mary (alias root while I've got no home directory)
  5787. v~p
  5788.  
  5789.  
  5790.  
  5791. Log-Number: 30942
  5792. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5793. Date: Thu, 25 Apr 1991 23:06:31 PDT
  5794. Subject: rename bug
  5795.  
  5796.  
  5797. The cause of anise wedging up is a bug in rename. The intent
  5798. of the rename code is that the lookup loop produces a locked handle on the
  5799. target.  If the target exists it is deleted.  Then a handle is locked
  5800. on the source, and the link is made.  What happened is that the lookup
  5801. loop ended up with a handle for the source, thus the second locking 
  5802. attempt deadlocked.  I can't figure out how this could have happened.
  5803. The code looks correct.  The parameters to the GrabHandle routine were
  5804. correct.  I think it must be a race of some sort.  I've identified the
  5805. program that caused the problem.  It is a daemon of mine that organizes
  5806. news articles in into threads of discussion. It uses a bunch of little
  5807. files that it copies before it modifies them, then renames the new copy
  5808. to the original name.  The last time anise wedged up there were two
  5809. daemons running, when there should have been only one.  Perhaps this
  5810. is a factor.  We need to set up a small test environment to track this
  5811. down.  Obviously I've stopped running the daemon until the bug is found.
  5812.  
  5813. John
  5814.  
  5815.  
  5816. Log-Number: 30943
  5817. Date: Fri, 26 Apr 91 08:40:52 PDT
  5818. From: bmiller (Bob Miller)
  5819. Subject: anonymous ftp
  5820.  
  5821.  
  5822.     From jds@cs.UMD.EDU Fri Apr 26 08:21:32 1991
  5823.     To: sprite-request@sprite.Berkeley.EDU
  5824.     Cc: jds@cs.UMD.EDU
  5825.     Subject: Sprite papers via anonymous FTP?
  5826.     Date: Fri, 26 Apr 91 11:20:20 -0400
  5827.     From: James da Silva <jds@cs.UMD.EDU>
  5828.  
  5829.     Greetings,
  5830.  
  5831.     I'm interested in browsing some of your Sprite papers.  I had heard that at
  5832.     least the Log-structured File System USENIX paper was available via
  5833.     anonymous FTP from sprite.berkeley.edu.  However, when I try it:
  5834.  
  5835.         [darling 7] ftp sprite.berkeley.edu
  5836.         Connected to allspice.Berkeley.EDU.
  5837.         220 allspice.Berkeley.EDU FTP server (Version 4.3 Wed Jul 11 23:01:30 PDT
  5838.         1990)
  5839.         ready.
  5840.         Name (sprite.berkeley.edu:jds): anonymous
  5841.         331 Guest login ok; supply userid as password.
  5842.         Password:
  5843.         530 User ftp: can't change directory to /users/ftp.
  5844.         Login failed.
  5845.  
  5846.     Looks like the permissions are wrong?  If this is on purpose, or if the
  5847.     papers aren't available via FTP, do you have a Sprite bibliography you
  5848.     could send my way?
  5849.  
  5850.     Thanks for your time,
  5851.     Jaime
  5852.     ...........................................................................
  5853.     : domain: jds@cs.umd.edu                     James da Silva
  5854.     : path:   uunet!mimsy!jds            Systems Design & Analysis Group
  5855.  
  5856.  
  5857.  
  5858. Log-Number: 30944
  5859. Date: Fri, 26 Apr 91 08:53:56 PDT
  5860. From: ouster (John Ousterhout)
  5861. Subject: FTP area still unavailable
  5862.  
  5863. John's message from yesterday implied that the FTP area had been
  5864. moved off of /user5.  However, ~ftp still doesn't exist so anonymous
  5865. ftp doesn't work.  Is this just a matter of changing the symbolic
  5866. link at /users/ftp, or is something more complicated needed?
  5867.  
  5868.                     -John-
  5869.  
  5870.  
  5871. Log-Number: 30945
  5872. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5873. Date: Fri, 26 Apr 1991 10:38:36 PDT
  5874. Subject: sun4 timer stops
  5875.  
  5876.  
  5877. Anise stopped getting timer interrupts, so it stopped processing its
  5878. timer queue.  It's amazing how long the machine will keep running
  5879. after this happens (it was still up 90 minutes after the timer stopped).
  5880. I don't know why the timer stopped.  It looks like the timer chip
  5881. just stopped producing interrupts.  I was unable to access the timer
  5882. chip control registers from the debugger so I'm not sure what it thought
  5883. it was doing.  I tried to reset it from the debugger but that didn't
  5884. work either.
  5885.  
  5886. John
  5887.  
  5888.  
  5889. Log-Number: 30946
  5890. Date: Fri, 26 Apr 91 13:07:20 PDT
  5891. From: root (The Sprite God)
  5892. Subject: Infinite recovery loop bug pretty much figured out
  5893.  
  5894. Yesterday evening, when John and I were in a particularly bad mood,
  5895. we took out our agressions on the infinite recovery loop bug.  This
  5896. is because it had decided to pop up on anise and allspice and serveral
  5897. other machines in the middle of our trying to deal with the failures
  5898. of /user5, /pcs, and a bunch of other things.  It is an example of what
  5899. John meant by those little bugs that get put aside and then get in the way
  5900. when you're really in trouble.  It popped up in such a way, though, that
  5901. we had complete syslog information on multiple machines about what was going
  5902. on.  Usually one side of the mess is in a locked room someplace.
  5903.  
  5904. Here's the scoop:
  5905. When a prefix broadcast is done to determine what server is exporting a
  5906. particular file system, only the machine exporting that prefix responds to
  5907. the broadcast.  All other machines give no response.  If, though, a client
  5908. knows that a particular server exported a prefix, then the next time the client
  5909. does a prefix rpc, it does not do a broadcast.  Instead, it sends just
  5910. that prefix rpc to that server.
  5911.  
  5912. If the server of that prefix has had that disk removed (/user5 on anise)
  5913. or something else happens to make a prefix it was exporting no longer present,
  5914. then that server doesn't respond to the prefix RPC sent to it.  The client
  5915. (in this case allspice) sees its prefix RPC timeout to anise.  It marks
  5916. anise as dead, puts it in its recovery list, and cleans up the state it
  5917. was keeping for anise (removes anise from its clientList).
  5918.  
  5919. Then, some program (cron or such) on anise tries to open some file on allspice
  5920. and anise sends allspice a handle for the file.  Allspice says "but you're not
  5921. in my clientList for that handle.  You must have some bogus handle."  Allspice
  5922. returns "STALE HANDLE" to anise.
  5923.  
  5924. Then, since allspice still has anise on its recovery list, it will attempt
  5925. to go through recovery with anise.  The first part of recovery is an
  5926. attempt to reopen all the prefixes for the server.  Allspice does a prefix
  5927. RPC for /user5 to anise and this times out again and the whole thing repeats
  5928. itself...
  5929.  
  5930. The solution:
  5931. There are a couple of angles to handle this from.  We can change things
  5932. so that if a server receives a prefix RPC that's not a broadcast, it will
  5933. always return something, either success or "no handle."  This means that
  5934. a prefix RPC that is not a broadcast will never time out on a client.  The
  5935. client receiving a "no handle" response can remove that prefix/serverID
  5936. pair from its prefix table.  This prevents the client from repeatedly hassling
  5937. the server about a prefix its no longer serving, and the client is also free
  5938. to broadcast for the handle in case that file system is now served by somebody
  5939. else.
  5940.  
  5941. But we have to be careful not to break the weird setup over in Cory Hall.
  5942. Due to horrors in the past, the machines in cory have been hardwired with
  5943. prefix/serverID pairs to avoid prefix broadcasts.  So hardwired prefix/serverID
  5944. pairs shouldn't be removed automatically from prefix tables.
  5945.  
  5946. The question remains as to what's the cleanest way for a server to determine
  5947. that a prefix request was specifically sent to it.  It's easy to tell at
  5948. the low-level of handling the RPC, but that's a disgusting place to put the
  5949. fix.  The right place is in the prefix service routine, but the rpc header
  5950. information needed is lost by the time the prefix service routine is called.
  5951. However, we can set a flag in the prefix request info sent from the client
  5952. that will be seen by the server.  I think this makes sense and will do it
  5953. if there are no objections.
  5954.  
  5955.  
  5956. Mary
  5957.  
  5958.  
  5959. Log-Number: 30948
  5960. Date: Fri, 26 Apr 91 17:37:22 PDT
  5961. From: tve (Thorsten von Eicken)
  5962. Subject: small problem on /pcs
  5963.  
  5964. Dump: can't lstat /pcs/tve/lib/santillana/mss/pn7y8.1/ID0127_PN8-27.poem: invali
  5965. d argument
  5966.  
  5967.  
  5968. Log-Number: 30949
  5969. Subject: missing LOCK_MONITOR in fsio
  5970. Date: Fri, 26 Apr 91 17:58:42 PDT
  5971. From: Mike Kupfer <kupfer>
  5972.  
  5973. Boy, this is going to be fun.  We should start a pool on how many
  5974. locking bugs I'll discover in the next week.
  5975.  
  5976. Fsio_StreamAddClient is missing a LOCK_MONITOR.
  5977.  
  5978. By the way, Sync_Unlock doesn't verify that the lock is actually set
  5979. before freeing it.  Any objections to my adding this check?
  5980.  
  5981. mike
  5982.  
  5983.  
  5984. Log-Number: 30950
  5985. Subject: optimization settings
  5986. Date: Fri, 26 Apr 91 18:22:50 PDT
  5987. From: Mike Kupfer <kupfer>
  5988.  
  5989. I noticed that I wasn't getting -Wall for the sync module.  Further
  5990. investigation leads to the following questions:
  5991.  
  5992. (1) is it okay to have -g3 when optimization is turned off (for
  5993. DECstations)?  The current .mk files only use -g3 when optimization is
  5994. turned on, which obviously works, but it leads to a somewhat crufty
  5995. sequence in the .mk files.
  5996.  
  5997. (2) is there some reason not to do the OFLAG and GFLAG assignments in
  5998. tm.mk?  They appear in bigcmd.mk, command.mk, kernel.mk, and
  5999. library.mk, and the assignments aren't all the same.
  6000.  
  6001. mike
  6002.  
  6003.  
  6004. Log-Number: 30951
  6005. From: mgbaker (Mary Gray Baker)
  6006. Subject: allspice crash
  6007. Date: Fri, 26 Apr 91 19:26:42 PDT
  6008.  
  6009. Allspice ran out of memory.  That was pretty quick.  We got a core, in case
  6010. it can tell us anything.
  6011.  
  6012. The restore of /user5 didn't finish before allspice crashed.
  6013.  
  6014. Mary
  6015.  
  6016.  
  6017. Log-Number: 30959
  6018. From: mgbaker (Mary Gray Baker)
  6019. Subject: allspice crash
  6020. Date: Sun, 28 Apr 91 19:33:21 PDT
  6021.  
  6022. Allspice ran out of memory again.  It always seems to do this when I attempt
  6023. to restore /user5.  I got another core image which we may or may not be
  6024. able to look at with any more success than the last one.
  6025.  
  6026. Mary
  6027.  
  6028.  
  6029. Log-Number: 30966
  6030. Date: Mon, 29 Apr 91 16:22:40 PDT
  6031. From: ouster (John Ousterhout)
  6032. Subject: Re: allspice crash
  6033.  
  6034. Is it possible that the restore program is not properly closing files?
  6035. Since we have no limit on the number of open files in Sprite, this
  6036. might be causing Allspice to run out of memory.
  6037.  
  6038.                     -John-
  6039.  
  6040.  
  6041. Log-Number: 30952
  6042. From: mgbaker (Mary Gray Baker)
  6043. Subject: Can't debug allspice core
  6044. Date: Fri, 26 Apr 91 19:37:40 PDT
  6045.  
  6046. Bringing the allspice core up in the debugger, it says
  6047.  
  6048. panic (ptrace: I/O error.
  6049. Cannot read memory: address 0x64 out of bounds.
  6050.  
  6051. and cannot give me a stack trace.
  6052.  
  6053. Mary
  6054.  
  6055.  
  6056. Log-Number: 30957
  6057. Date: Sun, 28 Apr 91 15:43:45 PDT
  6058. From: shirriff (Ken Shirriff)
  6059. Subject: ipServer went into debugger
  6060.  
  6061. The ipServer died when it tried to do a bad free.
  6062. It was in TCP_SocketDestroy trying to free tcpPtr->templatePtr.
  6063.  
  6064. Ken
  6065.  
  6066.  
  6067. Log-Number: 30958
  6068. Date: Sun, 28 Apr 91 15:48:04 PDT
  6069. From: shirriff (Ken Shirriff)
  6070. Subject: tk include files messed up
  6071.  
  6072. /usr/include/tk.h includes tkInt.h, which only exists in /sprite/src/lib/tk.
  6073.  
  6074. Ken
  6075.  
  6076.  
  6077. Log-Number: 30961
  6078. From: mgbaker (Mary Gray Baker)
  6079. Subject: debugging out-of-memory crash
  6080. Date: Sun, 28 Apr 91 20:14:41 PDT
  6081.  
  6082. The reason we cannot debug out-of-memory crashes using kgcore seems to be
  6083. an incompatibility between how kgcore lays out the different kernel segments
  6084. (when one of them is too big) and what the debugger thinks the addresses are.
  6085. This warrants further investigation.
  6086.  
  6087. Mary
  6088.  
  6089.  
  6090. Log-Number: 30962
  6091. Date: Mon, 29 Apr 91 00:18:37 PDT
  6092. From: mottsmth (Jim Mott-Smith)
  6093. Subject: Assault died
  6094.  
  6095.  
  6096. Assault died at about 11:50pm with
  6097.     Fatal error: HandleRelease handle <1,25,0,59200>
  6098.     "cmds" not locked
  6099.     Syncing disks
  6100.     FslclLookup, missing '..' link: ID <25,0,44624>
  6101.  
  6102. Ken claims responsibility.  He was in a directory in one window
  6103. and deleted the directory from another.
  6104.  
  6105. -- Jim M-S (part-time ddj)
  6106.  
  6107.  
  6108.  
  6109.  
  6110. Log-Number: 30964
  6111. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  6112. Date: Mon, 29 Apr 1991 10:44:22 PDT
  6113. Subject: Re: Assault died
  6114.  
  6115. This is a known bug that has been around for quite a while.  I
  6116. remember looking at it, but deciding that it wasn't trivial to
  6117. fix.  I think we should add it to our spring cleaning list if
  6118. someone doesn't fix it before then.
  6119.  
  6120. John
  6121.  
  6122.  
  6123. Log-Number: 30963
  6124. Date: Mon, 29 Apr 91 00:20:07 PDT
  6125. From: mottsmth (Jim Mott-Smith)
  6126. Subject: Disk space message
  6127.  
  6128.  
  6129. When I try to initialize the tape in preparation for
  6130. a weekly backup it says
  6131.     Dump: error writing to /sprite/admin/dump/dumplog:
  6132.     no more space in file system domain.
  6133.  
  6134. a df show 19K blocks available.  What's happening here?
  6135.  
  6136. -- Jim M-S
  6137.  
  6138.  
  6139. Log-Number: 30969
  6140. Date: Mon, 29 Apr 91 13:39:57 PDT
  6141. From: shirriff@ginger.Berkeley.EDU (Ken Shirriff)
  6142. Subject: Lfs crashed allspice
  6143.  
  6144. Allspice died with bad LfsStableMemBlockHdr on /user6.
  6145. I took a core and rebooted.
  6146. We now have 3 core files saved; allspice seems to crash faster
  6147. than we are examining cores.
  6148.  
  6149.  
  6150. Log-Number: 30970
  6151. From: mgbaker (Mary Gray Baker)
  6152. Subject: Re: Lfs crashed allspice 
  6153. Date: Mon, 29 Apr 91 18:26:26 PDT
  6154.  
  6155. I am examining the lfs crash core file at this moment.  I cannot find the
  6156. list crash corefile and already sent mail asking where it is.  The other core
  6157. file is from yesterday, and I already looked at it.
  6158.  
  6159.  
  6160. Mary
  6161.  
  6162.  
  6163. Log-Number: 30971
  6164. From: mgbaker (Mary Gray Baker)
  6165. Subject: allspice lfs crash
  6166. Date: Mon, 29 Apr 91 19:18:36 PDT
  6167.  
  6168. I took a look at the core for the lfs crash earlier today.  It died in
  6169. LfsStableMemFetch() at line 454.  It was trying to do a lookup of /user5/kupfer.
  6170. The prefixPtr has the serverID set to 14, namely allspice.
  6171.  
  6172. In LfsStableMemFetch, where it died, the hdrPtr seems to point to garbage,
  6173. in fact, it appears to be the error string, however blockPtr->blockAddr,
  6174. from which it's set, has a different, also bad, address.  I don't know what's
  6175. going on here.  There's probably something I'm not understanding about the
  6176. debugger.
  6177.  
  6178.  
  6179.  
  6180. (gdb) p/x hdrPtr
  6181. $25 = 0xf606b0d8
  6182. (gdb) x/s $25
  6183. 0xf606b0d8 <LfsStableMemWriteDone+240>:    (char *) 0xf606b0d8 "Bad LfsStableMemBlockHdr\n"
  6184.  
  6185. (gdb) p/x blockPtr->blockAddr
  6186. $29 = 0xf88e8000
  6187.  
  6188.  
  6189. (gdb) list
  6190. 449    #ifdef ERROR_CHECK
  6191. 450        hdrPtr = (LfsStableMemBlockHdr *) blockPtr->blockAddr;
  6192. 451        if ((hdrPtr->magic != LFS_STABLE_MEM_BLOCK_MAGIC) || 
  6193. 452            (hdrPtr->memType != smemPtr->params.memType) ||
  6194. 453            (hdrPtr->blockNum != blockNum)) {
  6195. 454            LfsError(smemPtr->lfsPtr, FAILURE, "Bad LfsStableMemBlockHdr\n");
  6196. 455        }
  6197. 456    #endif /* ERROR_CHECK */
  6198. 457        entryPtr->addr = blockPtr->blockAddr + offset;
  6199. 458        entryPtr->blockNum = blockNum;
  6200.  
  6201. (gdb) p/x *hdrPtr
  6202. $22 = {
  6203.   magic = 0x42616420, 
  6204.   memType = 0x4c667353, 
  6205.   blockNum = 0x7461626c, 
  6206.   reserved = 0x654d656d
  6207. }
  6208.  
  6209.  
  6210.  
  6211.  
  6212. (gdb) where 
  6213. #0  panic (__builtin_va_alist=-167350692) (sysPrintf.c line 220)
  6214. #1  0xf6066e9c in LfsError (...) (...)
  6215. #2  0xf606b358 in LfsStableMemFetch (smemPtr=(struct LfsStableMem *) 0xf65ebeb8, entryNumber=636, flags=0, entryPtr=(struct LfsStableMemEntry *) 0xf80b3640) (lfsStableMem.c line 454)
  6216. #3  0xf6062658 in LfsDescMapGetDiskAddr (lfsPtr=(struct Lfs *) 0xf65ebb80, fileNumber=54234, diskAddrPtr=(ClientData) 0xf80b36d4) (lfsDescMap.c line 150)
  6217. #4  0xf6061d28 in Lfs_FileDescFetch (domainPtr=(struct Fsdm_Domain *) 0xf680e3b8, fileNumber=54234, fileDescPtr=(struct Fsdm_FileDescriptor *) 0xf6bddc68) (lfsDesc.c line 73)
  6218. #5  0xf60387e8 in Fsdm_FileDescFetch (...) (...)
  6219. #6  0xf60439ac in Fsio_LocalFileHandleInit (...) (...)
  6220. #7  0xf604b3a0 in FindComponent (parentHandlePtr=(struct Fsio_FileIOHandle *) 0xf6bdc2a8, component=(char *) 0xf80b3af8 "kupfer", compLen=6, isDotDot=0, curHandlePtrPtr=(struct Fsio_FileIOHandle **) 0xf80b395c, dirOffsetPtr=(ClientData) 0xf80b3954) (fslclLookup.c line 869)
  6221. #8  0xf604a67c in FslclLookup (prefixHdrPtr=(struct Fs_HandleHeader *) 0xf6bdc2a8, relativeName=(char *) 0xf6664fd8 "kupfer", rootIDPtr=(struct Fs_FileID *) 0xf6664be8, useFlags=0, type=0, clientID=72, idPtr=(struct Fs_UserIDs *) 0xf6664c0c, permissions=0, fileNumber=0, handlePtrPtr=(struct Fsio_FileIOHandle **) 0xf80b3c8c, newNameInfoPtrPtr=(struct Fs_RedirectInfo **) 0xf80b3d3c) (fslclLookup.c line 402)
  6222. #9  0xf604989c in FslclGetAttrPath (prefixHandlePtr=(struct Fs_HandleHeader *) 0xf6bdc2a8, relativeName=(char *) 0xf6664fd8 "kupfer", argsPtr=(char *) 0xf6664bd8 , resultsPtr=(char *) 0xf80b3d48 "\366\265S8\366\265SH", newNameInfoPtrPtr=(struct Fs_RedirectInfo **) 0xf80b3d3c) (fslclDomain.c line 248)
  6223. #10 0xf6056670 in Fsrmt_RpcGetAttrPath (srvToken=(ClientData) 0xf6663b68, clientID=-161068072, storagePtr=(struct Rpc_Storage *) 0xf80b3dc8) (fsrmtAttributes.c line 212)
  6224. #11 0xf60ade88 in Rpc_Server (...) (...)
  6225. #12 0xf60b3310 in Sched_StartKernProc (...) (...)
  6226.  
  6227.  
  6228.  
  6229. Mary
  6230.  
  6231.  
  6232. Log-Number: 31003
  6233. From: mendel (Mendel Rosenblum)
  6234. Subject: Re: allspice lfs crash 
  6235. Date: Sat, 04 May 91 15:59:24 PDT
  6236.  
  6237.  
  6238. > In LfsStableMemFetch, where it died, the hdrPtr seems to point to garbage,
  6239. > in fact, it appears to be the error string, however blockPtr->blockAddr,
  6240. > from which it's set, has a different, also bad, address.  I don't know what's
  6241. > going on here.  There's probably something I'm not understanding about the
  6242. > debugger.
  6243. > (gdb) p/x hdrPtr
  6244. > $25 = 0xf606b0d8
  6245. > (gdb) x/s $25
  6246. > 0xf606b0d8 <LfsStableMemWriteDone+240>:    (char *) 0xf606b0d8
  6247. "Bad LfsStableMemBlockHdr\n"
  6248. > (gdb) p/x blockPtr->blockAddr
  6249. > $29 = 0xf88e8000
  6250. > (gdb) list
  6251. > 449    #ifdef ERROR_CHECK
  6252. > 450        hdrPtr = (LfsStableMemBlockHdr *) blockPtr->blockAddr;
  6253. > 451        if ((hdrPtr->magic != LFS_STABLE_MEM_BLOCK_MAGIC) || 
  6254. > 452            (hdrPtr->memType != smemPtr->params.memType) ||
  6255. > 453            (hdrPtr->blockNum != blockNum)) {
  6256. > 454            LfsError(smemPtr->lfsPtr, FAILURE, "Bad
  6257. LfsStableMemBlockHdr\n");
  6258. > 455        }
  6259. > 456    #endif /* ERROR_CHECK */
  6260.  
  6261.  
  6262. There are two problems with the debugger here. The first is since we compile
  6263. with -O the value of hdrPtr is no longer available after its last use.  The
  6264. compiler put hdrPtr in $o2 and then trashed $o2 doing the call to LfsError. 
  6265.  
  6266. The second problem is the kgcore program doesn't transfer the file cache
  6267. by default.  (The -c will cause kgcore to dump the file cache but it will
  6268. take too long on allspice.) This means the memory at blockPtr->blockAddr is not
  6269. accessible to the debugger.
  6270.  
  6271.     Mendel
  6272.  
  6273.  
  6274. Log-Number: 30973
  6275. Date: Mon, 29 Apr 91 21:28:17 PDT
  6276. From: bsw!adam@uunet.UU.NET (Adam de Boor)
  6277. Subject: allspice lfs crash
  6278.  
  6279. I don't know how much optimization you folks turn on in gcc, but the
  6280. thing with hdrPtr being the error message looks a lot like an
  6281. optimization. gcc probably put hdrPtr in an o register since it's not
  6282. used outside the ERROR_CHECK block. I think "info address hdrPtr" will
  6283. tell you what register the thing's in, maybe? I've seen this many,
  6284. many times when I use gcc...
  6285.  
  6286. a
  6287.  
  6288.  
  6289. Log-Number: 30972
  6290. From: mgbaker (Mary Gray Baker)
  6291. Subject: More about allspice crash
  6292. Date: Mon, 29 Apr 91 19:20:24 PDT
  6293.  
  6294. I forgot to say that allspice was running the 1.084 kernel when it got the
  6295. lfs crash.  I don't know why it had been rebooted with that kernel rather
  6296. than "new."
  6297.  
  6298. Mary
  6299.  
  6300.  
  6301. Log-Number: 30974
  6302. Date: Tue, 30 Apr 91 09:54:29 PDT
  6303. From: mottsmth (Jim Mott-Smith)
  6304. Subject: Allspice died with "Bad LfsStableMemBlockHdr"
  6305.  
  6306.  
  6307. (There JHH, I put the crash cause in the subject line).
  6308.  
  6309. The console said the following:
  6310.     Warning SCSI3#3 DMA bus error
  6311.     DevRawBlockDevRead: error 0x0 inlength 512 at offset 0x102ed600
  6312.         outlength 0
  6313.     Fsdm_FileDescFetch found junky file desc
  6314.     Fsio_LocalFileHandleInit: Fsdm_FileDescGetch of 147472 failed 0x1
  6315.     FindComponent , no handle <0x1> for "admin" filenumber 147472
  6316.     Fatal Error: LfsError: on /sprite/src/kernel status 0x1,
  6317.         Bad LfsStableMemBlockHdr
  6318.  
  6319. JHH hypothesized that the driver code doesn't handle bus resets
  6320. very well.  Not understanding that the device was reset, it 
  6321. went ahead and read garbage when poor LFS tried then tried to dereference.
  6322. No core dump was taken.
  6323.  
  6324. -- Jim M-S
  6325.  
  6326.  
  6327. Log-Number: 30975
  6328. Date: Tue, 30 Apr 91 12:27:51 PDT
  6329. From: shirriff (Ken Shirriff)
  6330. Subject: lpr locks up sage
  6331.  
  6332. Twice when I've tried to print a file, sage (the machine attached to
  6333. the printer) has locked up.  (Sorry Mike!)
  6334.  
  6335. Ken
  6336.  
  6337.  
  6338. Log-Number: 30976
  6339. Date: Tue, 30 Apr 91 12:55:13 PDT
  6340. From: shirriff (Ken Shirriff)
  6341. Subject: lpr shutting off timer
  6342.  
  6343. The problem with sage was apparently that the printer cable was loose.
  6344. The connector on the cable is missing the tab to make it snap into place
  6345. securely.  We should either get the cable repaired or make a note of the
  6346. problem for next time.
  6347.  
  6348. The effect of the loose cable was that the timer was stopping.  This is
  6349. interesting since John encountered timer problems with something else.
  6350.  
  6351. Ken
  6352.  
  6353.  
  6354. Log-Number: 30978
  6355. From: mgbaker (Mary Gray Baker)
  6356. Subject: tar.gnu arguments
  6357. Date: Tue, 30 Apr 91 17:57:50 PDT
  6358.  
  6359. This is probably supposed to be standard knowledge, but what are the
  6360. differences between tar and tar.gnu?  There are some mystery arguments
  6361. to tar.gu that aren't arguments to tar, and there's no man page for tar.gnu.
  6362. Some of the arguments I can see easily in the code, but others are vague.
  6363.  
  6364. Mary
  6365.  
  6366.  
  6367. Log-Number: 30979
  6368. Date: Wed, 1 May 91 12:45:22 PDT
  6369. From: ouster (John Ousterhout)
  6370. Subject: Trashed mail
  6371.  
  6372. At some point during the various Sprite crashes last weekend my
  6373. mail spool file inherited two bogus "messages".  One consists of
  6374. a piece of syslog output, I think:
  6375.  
  6376. tocol 90
  6377. Warning: Sock_ReturnError: bad protocol 90
  6378. Warning: Sock_ReturnError: bad protocol 90
  6379. Warning: Sock_ReturnError: bad protocol 90
  6380. Warning: Sock_ReturnError: bad protocol 90
  6381. Warning: Sock_ReturnError: bad protocol 90
  6382. Warning: Sock_ReturnError: bad protocol 90
  6383. Warning: Sock_ReturnError: bad protocol 90
  6384. Warning: Sock_ReturnError: bad protocol 90
  6385. Warning: Sock_ReturnError: bad protocol 90
  6386. Warning: Sock_ReturnError: bad protocol 90
  6387. Warning: Sock_ReturnError: bad protocol 90
  6388. Warning: Sock_ReturnError: bad protocol 90
  6389. Warning: Sock_ReturnError: From guarino@src.dec.com Mon Apr 29 10:07:41 1991
  6390.  
  6391. and the other is apparently a bunch of nulls.  This can probably
  6392. be explained by Sprite's "sync on a client doesn't sync through
  6393. to disk" behavior.  I thought of a way to verify that nothing has
  6394. been lost after such an occurrence: look at the mail spool file,
  6395. count the number of bytes in the nulls or inherited garbage, and
  6396. see if that number corresponds to the exact size of a later message.
  6397. This would occur if a crash occurs in the middle of receiving a
  6398. message, leaving garbage in the spool file, but the message is
  6399. retransmitted later.  Unfortunately I didn't think of this in time
  6400. to try it on my mailbox.
  6401.                     -John-
  6402.  
  6403.  
  6404. Log-Number: 30980
  6405. Subject: raid1 stuck -> reboot
  6406. Date: Wed, 01 May 91 14:12:51 PDT
  6407. From: Mike Kupfer <kupfer>
  6408.  
  6409. raid1 wouldn't let me log in, even on the console.  L1-p showed a
  6410. bunch of RPC servers all waiting on the same event, and L1-z showed
  6411. that most of them were reopens.  I suspect that some process locked
  6412. /r1 and then hung, so that eventually the world ground to a halt.  I
  6413. rebooted raid1.
  6414.  
  6415. mike
  6416.  
  6417.  
  6418. Log-Number: 30981
  6419. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  6420. Date: Wed, 1 May 1991 17:15:12 PDT
  6421. Subject: strlen on invalid prefix
  6422.  
  6423. Loiter crashed because it tried to do a strlen on the prefixPtr->prefix
  6424. inside of FsprefixLookupRedirect.  Unfortunately either prefixPtr
  6425. was pointing to the wrong place, or its contents were garbage.
  6426. >From looking at the list of prefixes it looks like the pointer was
  6427. bad.  It was pointing at something that looked to me to be an IP
  6428. packet (ARP broadcast from csgw2).  It occurred to me that perhaps
  6429. we got an interrupt at a bad time and didn't restore a register.
  6430. An examination of the code didn't turn up anything obvious.  Another
  6431. possiblity is that the prefixPtr was never set to anything.  It is
  6432. not initialized to NIL, so perhaps it was used uninitialized and
  6433. just happened to end up pointing to an ethernet packet.  I looked
  6434. through the code for GetPrefix, but didn't see any path that could
  6435. cause this to happen.
  6436.  
  6437. The machine was a ds5000 running kernel DS5000.JHH.2110.
  6438.  
  6439. John
  6440.  
  6441.  
  6442. Log-Number: 30982
  6443. From: mgbaker (Mary Gray Baker)
  6444. Subject: prefixPtr sparcstation crash & debugger question
  6445. Date: Wed, 01 May 91 20:08:16 PDT
  6446.  
  6447. Jaywalk crashed today while indirecting through a prefixPtr in
  6448. FsprefixLookupRedirect line 608.  In the calling routine, the prefixPtr
  6449. passed to FsprefixLookupRedirect is valid, but the structure is zeroed out.
  6450. However, the crash was just dereferencing the pointer.  It was doing a lookup
  6451. as part of an open of ../../lib/include/sun4.md/sys.h.
  6452.  
  6453. Part of what is don't understand is the stack:
  6454. (gdb) where
  6455. #0  panic (__builtin_va_alist=-167711443) (sysPrintf.c line 220)
  6456. #1  0xf600f1c8 in MachHandleTrap (trapType=112, pcValue=(char *) 0xf6050e60 "\344\004 \b\240\004\340\004@", trapPsr=4194501) (sun4c.md/machCode.c line 1557)
  6457. #2  0xf601093c in MachReturnFromTrap ()
  6458. #3  0xf6054aa8 in FsrmtOpen (prefixHandle=(struct Fs_HandleHeader *) 0xf814391c, relativeName=(char *) 0xf8143a58 "../Include/sun4c.md/user/sys.h", argsPtr=(char *) 0xf6568c08 , resultsPtr=(char *) 0xf8143938 "\366 E\330", newNameInfoPtrPtr=(struct Fs_RedirectInfo **) 0xf8143894) (fsrmtDomain.c line 338)
  6459. #4  0xf6050584 in Fsprefix_LookupOperation (fileName=(char *) 0xf8143a58 "../Include/sun4c.md/user/sys.h", operation=2, follow=4096, argsPtr=(char *) 0xf8143970 , resultsPtr=(char *) 0xf8143938 "\366 E\330", nameInfoPtr=(struct Fs_NameInfo *) 0xf64da250) (fsprefixOps.c line 210)
  6460. #5  0xf602e2ac in Fs_Open (...) (...)
  6461. #6  0xf602ffe4 in Fs_OpenStub (...) (...)
  6462. #7  0xf60114b0 in MachFetchArgsEnd ()
  6463.  
  6464. Why is FsrmtOpen on the stack in frame 3?  It was called earlier from frame 4,
  6465. but then frame 4 called FsprefixLookupRedirect which is where the pc was
  6466. when the machine crashed.  I would expect to see FsprefixLookupRedirect instead
  6467. of FsrmtOpen as the routine in frame 3.  Is the return address for a
  6468. previous call not being overwritten by the next one?  This would seem to mean
  6469. the register windows aren't being flushed or aren't being flushed in the right
  6470. place.  If someone has a better explanation, please tell me.
  6471.  
  6472.  
  6473.  
  6474. Mary
  6475.  
  6476.  
  6477. Log-Number: 30983
  6478. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  6479. Date: Wed, 1 May 1991 20:40:07 PDT
  6480. Subject: Re: prefixPtr sparcstation crash & debugger question
  6481.  
  6482. This bug appears similar to loiter's crash that I reported earlier (strlen).
  6483. My guess is that deleting a prefix doesn't work properly in some cases.
  6484. Last night as part of the change to the new disk I deleted the 
  6485. /sprite/src/kernel prefix from all machines.  Both Jaywalk and Loiter
  6486. crashed while doing a LookupRedirect in which the current directory
  6487. was /sprite/src/kernel and the pathname was relative and started with
  6488. "..".  Also, in both cases I think the a file open was the cause of
  6489. the lookup. 
  6490.  
  6491. john
  6492.  
  6493.  
  6494. Log-Number: 30984
  6495. From: mgbaker (Mary Gray Baker)
  6496. Subject: tar fooling me
  6497. Date: Wed, 01 May 91 20:32:25 PDT
  6498.  
  6499. I tried to dump our traces to a tape using tar.  I did the following
  6500.  
  6501. tar cvhf /dev/exb1.nr /traces/allspice /traces/anise /traces/assault >&! out
  6502.  
  6503. And it put the names of all the trace files in out, so it seemed like it was
  6504. doing the right thing.
  6505.  
  6506. Then, just to check it was all there, I rewound the tape and did a
  6507.  
  6508. tar tvf /dev/exb1.nr  >&! out
  6509.  
  6510. There were no files on the tape and out was empty.  What did I do wrong?
  6511.  
  6512. Mary
  6513.  
  6514.  
  6515. Log-Number: 30985
  6516. Subject: lock holderPCBPtr field
  6517. Date: Thu, 02 May 91 12:01:12 PDT
  6518. From: Mike Kupfer <kupfer>
  6519.  
  6520. Does anyone know why the holderPCBPtr field in a lock or master lock
  6521. is defined as an Address?  Why isn't it a (Proc_ControlBlock *)?
  6522.  
  6523. mike
  6524.  
  6525.  
  6526. Log-Number: 30986
  6527. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  6528. Date: Thu, 2 May 1991 12:04:03 PDT
  6529. Subject: Re: lock holderPCBPtr field
  6530.  
  6531. Once again it is probably due to a circularity in the header files.
  6532. Perhaps this circularity is now gone, so that it could be redefined.
  6533. Any time you see something defined as an Address when it obviously
  6534. should have another type it is probably due to past problems with
  6535. header files.
  6536.  
  6537. John
  6538.  
  6539.  
  6540. Log-Number: 30987
  6541. Subject: Re: problem with msgs 
  6542. Date: Thu, 02 May 91 12:40:48 PDT
  6543. From: Mike Kupfer <kupfer>
  6544.  
  6545. > Date: Thu, 2 May 91 12:08:50 PDT
  6546. > From: eklee (Edward K. Lee)
  6547. > To: spriters
  6548. > Subject: problem with msgs
  6549. > I only get the headers without the body.
  6550. > Ed
  6551.  
  6552. Well, here are the clues.
  6553.  
  6554. "msgs" works fine on suns.  It also works fine on assault, which is
  6555. the server that nfsmounts the msgs partition.  However, it doesn't
  6556. work on any of the half-dozen or so DECstations that I tried (either
  6557. 3100s or 5000s).  If I "more" the msgs files on a DECstation, I see
  6558. that the first 76 characters of the file are missing.  This screws up
  6559. the headers, which is probably confusing "msgs".  If I "cat" the
  6560. files, they look fine.
  6561.  
  6562. Hypothesis: "more" and "msgs" do an ioctl that "cat" does not, and
  6563. somebody is mishandling the ioctl, causing the first 76 characters of
  6564. the file to get dropped on the floor.
  6565.  
  6566. Does this ring any bells with any of the Spriters...?
  6567.  
  6568. mike
  6569.  
  6570.  
  6571. Log-Number: 30988
  6572. Date: Thu, 2 May 91 12:43:29 PDT
  6573. From: shirriff (Ken Shirriff)
  6574. Subject: Re: problem with msgs
  6575.  
  6576. We've had problems before with lseeks failing with nfs files due
  6577. to a byte swapping file.  I bet that "more" reads the first 76
  6578. characters to make sure it's not an object file and then lseeks to
  6579. the beginning to reread the file.
  6580.  
  6581. Ken
  6582.  
  6583.  
  6584. Log-Number: 30989
  6585. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  6586. Date: Thu, 2 May 1991 12:44:41 PDT
  6587. Subject: Re: problem with msgs
  6588.  
  6589.  
  6590. This is a bug in nfsmount.  Try doing "more" on a decstation of any
  6591. file accessed via nfsmount.  You end up with the first bunch of characters
  6592. missing.  I think it is because more does on lseek back to the beginning
  6593. of the file, and nfsmount isn't resetting the offset correctly or some
  6594. such thing.  Didn't somebody fix this already?
  6595.  
  6596. John
  6597.  
  6598.  
  6599. Log-Number: 30990
  6600. Subject: deadlock when remote exec fails
  6601. Date: Thu, 02 May 91 14:52:49 PDT
  6602. From: Mike Kupfer <kupfer>
  6603.  
  6604. A process migrated from nutmeg to catnip.  It was supposed to do a
  6605. remote exec, but that failed with SYS_ARG_NOACCESS.  When exiting it
  6606. tried to lock its pcb, which deadlocked because it had locked the pcb
  6607. in Proc_ResumeMigProc.
  6608.  
  6609. mike
  6610. --
  6611. (gdb) bt
  6612. #0  0xe004132 in Mach_ContextSwitch ()
  6613. #1  0xfeedbabe in ?? ()
  6614. #2  0xe081cde in SyncEventWaitInt (event=237605708, wakeIfSignal=0) 
  6615.     (syncLock.c line 655)
  6616. #3  0xe08123e in Sync_SlowWait (
  6617.     conditionPtr=(struct Sync_Condition *) 0xe29934c, 
  6618.     lockPtr=(struct Sync_KernelLock *) 0xe0c92c4, wakeIfSignal=0) 
  6619.     (syncLock.c line 298)
  6620. #4  0xe071e02 in Proc_Lock (
  6621.     procPtr=(struct Proc_ControlBlock *) 0xe2992e0) 
  6622.     (procTable.c line 416)
  6623. #5  0xe0682ec in ProcExitProcess (
  6624.     exitProcPtr=(struct Proc_ControlBlock *) 0xe2992e0, reason=4, 
  6625.     status=5, code=0, thisProcess=1) (procExit.c line 538)
  6626. #6  0xe067dba in Proc_ExitInt (reason=4, status=5, code=0) 
  6627.     (procExit.c line 270)
  6628. #7  0xe067ae6 in ProcDoRemoteExec (
  6629.     procPtr=(struct Proc_ControlBlock *) 0xe2992e0) 
  6630.     (procExec.c line 1878)
  6631. #8  0xe06ef58 in Proc_ResumeMigProc (pc=106756) (procRemote.c line 313)
  6632.  
  6633.  
  6634.  
  6635. Log-Number: 30991
  6636. Date: Thu, 2 May 91 17:04:21 PDT
  6637. From: kupfer (Mike Kupfer)
  6638. Subject: changing the dump scripts
  6639.  
  6640. Somebody has been editing the dailydump and weeklydumps in
  6641. /sprite/admin.sun4, even though the sources are RCS'd and living in
  6642. /sprite/src/admin/{daily,weekly}dump.  I think I put the scripts under
  6643. RCS after some anonymous person broke the scripts and I had to fix
  6644. them by hand.  I would prefer that we continue to keep the scripts
  6645. under RCS.  If we want to move the RCS directory to
  6646. /sprite/admin.sun4, I won't complain too loudly, though it's
  6647. inconsistent with the usual Sprite file organization.
  6648.  
  6649. mike
  6650.  
  6651.  
  6652. Log-Number: 30993
  6653. Subject: Re: problem with X11 from parsley 
  6654. Date: Thu, 02 May 91 21:35:19 PDT
  6655. From: Mike Kupfer <kupfer>
  6656.  
  6657. Do you know if the Mac actually does an rlogin, or does it try to
  6658. telnet in?
  6659.  
  6660. It's not immediately obvious to me what the problem might be, so I'm
  6661. forwarding your message to "bugs" so that it gets discussed at the
  6662. weekly Sprite meeting.
  6663.  
  6664. mike
  6665. --
  6666. Date: Thu, 2 May 91 17:38:45 PDT
  6667. >From: randy (Randy Katz)
  6668. To: sprite
  6669. Subject: problem with X11 from parsley
  6670.  
  6671.  
  6672. I have succeeded in making MacX work from my macintosh to mercenary
  6673. without difficulty. However, when I attempt to connect to mayhem, I
  6674. get some problems about password incorrect while establishing the link
  6675. (parsley, my MAC, attempts to rlogin to mayhem to issue the appropriate
  6676. xterm command).
  6677. It seems that xterm works fine when initiated from mayhem.
  6678.  
  6679. Some time ago, because I had problems with telnet, parsley was
  6680. deleted from allspice's network id file (I think). could this be
  6681. the root of the password problem?
  6682.  
  6683. By the way, mercenary is a Sun SPARCSTATION
  6684. running SUN OS
  6685.  
  6686. mayhem is a DS5000 running sprite
  6687.  
  6688. I attempted this same thing with ginger, but something faulted,
  6689. either the mac or in ginger (something about a 68881 fault).
  6690.  
  6691. randy
  6692.  
  6693.  
  6694.  
  6695. Log-Number: 30994
  6696. From: mgbaker (Mary Gray Baker)
  6697. Subject: allspice server mutex deadlock
  6698. Date: Thu, 02 May 91 21:56:02 PDT
  6699.  
  6700. Allspice died tonight with a dead lock.  It tried a bunch of times to
  6701. go into the debugger, but didn't make it.
  6702.  
  6703. Proc: serverMutex @0xf61e2628
  6704. Holder pc: 0xf60945f8
  6705. Current pc: 0xf605459c
  6706. Holder PCB: 0xf662fc68
  6707. Current PCB: 0xf662fc68
  6708.  
  6709. Mary
  6710.  
  6711.  
  6712. Log-Number: 30995
  6713. Date: Fri, 3 May 91 00:42:05 PDT
  6714. From: root (The Sprite God)
  6715. Subject: Assault died with repeated TLB load error
  6716.  
  6717. Assault went crazy and started printing
  6718.     MachKernelExceptionHandler: Address error on load.
  6719.     addr 17 pc 800a2ba0
  6720.     Entering debugger with a TLB load addr error exception
  6721.     at PC 0x800a2ba0
  6722. endlessly on the console.  It wouldn't go into the debugger
  6723. so I rebooted it.
  6724.  
  6725. --Jim M-S
  6726.  
  6727.  
  6728. Log-Number: 30997
  6729. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  6730. Date: Fri, 3 May 1991 09:49:02 PDT
  6731. Subject: Re: Assault died with repeated TLB load error
  6732.  
  6733. This has happened before.  There is a bug in the debugger, such that
  6734. you get an address error trying to parse a packet or something.  That
  6735. sends you back to the debugger, causing the loop.  Assault was running
  6736. 1.079.  This kernel has been deleted from /sprite/src/kernel/sprite, so
  6737. I couldn't see where the pc was.  Also, the address is always 17.
  6738.  
  6739. John
  6740.  
  6741.  
  6742. Log-Number: 30996
  6743. Date: Fri, 3 May 91 09:13:24 PDT
  6744. From: randy (Randy Katz)
  6745. Subject: two messages concatenated in Sprite mail
  6746.  
  6747.     From mike@postgres.Berkeley.EDU Thu May  2 19:01:37 1991
  6748.     Date: Thu, 2 May 91 19:00:47 -0700
  6749.     From: mike@postgres.Berkeley.EDU (Mike Stonebraker)
  6750.     To: randy@sprite.Berkeley.EDU
  6751.     Subject: try this -- references are at end or from DEC proposal
  6752.  
  6753.     [bulk of message deleted -mdk 5/3/91]
  6754.     This
  6755.     requires indexing a region of spatial data and a region of time
  6756.     accoFrom kupfer Thu May  2 21:35:33 1991
  6757.     Received: by sprite.Berkeley.EDU (5.59/1.29)
  6758.         id AA532794; Thu, 2 May 91 21:35:20 PDT
  6759.     Message-Id: <9105030435.AA532794@sprite.Berkeley.EDU>
  6760.     To: randy
  6761.     Cc: bugs
  6762.     Subject: Re: problem with X11 from parsley 
  6763.     In-Reply-To: Your message of Thu, 02 May 91 17:38:45 -0700
  6764.     Date: Thu, 02 May 91 21:35:19 PDT
  6765.     From: Mike Kupfer <kupfer>
  6766.  
  6767.     [bulk of message deleted -mdk 5/3/91]
  6768.  
  6769.  
  6770. Log-Number: 30998
  6771. Date: Fri, 3 May 91 17:37:34 PDT
  6772. From: randy (Randy Katz)
  6773. Subject: rlogin SUNOS to Sprite
  6774.  
  6775.  
  6776. I can rlogin from sprite to SunOS, but for some reason I can't go the
  6777. other way. On mayhem, a sprite d5000, I go over to mercenary, a sun
  6778. os sparcstation. when I try to rlogin back to mayhem, the connection
  6779. times out. I have mercenary in the .rhosts file on mayhem too.
  6780.  
  6781. randy
  6782.  
  6783.  
  6784. Log-Number: 30999
  6785. Date: Fri, 3 May 91 18:30:35 PDT
  6786. From: shirriff (Ken Shirriff)
  6787. Subject: allspice deadlock
  6788.  
  6789. Allspice and raid1 got in a deadlock, so I rebooted raid1, which cleared
  6790. it up.  I'll take a look at the cores to figure out what happened.
  6791.  
  6792. Ken
  6793.  
  6794.  
  6795. Log-Number: 31000
  6796. Date: Fri, 3 May 91 23:02:27 PDT
  6797. From: eklee (Edward K. Lee)
  6798. Subject: Re: allspice deadlock
  6799.  
  6800. >>Allspice and raid1 got in a deadlock, so I rebooted raid1, which cleared
  6801. >>it up.  I'll take a look at the cores to figure out what happened.
  6802.  
  6803. >>Ken
  6804.  
  6805. I may have provoked this deadlock.
  6806. A process on raid1 was waiting for a callback from a block IO procedure with
  6807. at least one file handle locked.
  6808. To save time I wanted to see if I could continue it instead of rebooting raid1
  6809. so I diddled the data structures to return a failed status and then manually
  6810. executed Sync_MasterBroadcast from the debugger.
  6811. The result was not what I wanted so I was about to reboot raid1 when RPCs
  6812. to allspice started to time out.
  6813. I went home at this point, thinking that allspice had crashed.
  6814.  
  6815. Ed
  6816.  
  6817.  
  6818. Log-Number: 31001
  6819. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  6820. Date: Fri, 3 May 1991 23:15:09 PDT
  6821. Subject: anise crash, handle not locked
  6822.  
  6823.  
  6824. Anise crached because a handle wasn't locked.  I took a core.
  6825. I'll look at it tomorrow if someone else doesn't first.
  6826.  
  6827. John
  6828.  
  6829.  
  6830. Log-Number: 31002
  6831. From: mendel (Mendel Rosenblum)
  6832. Subject: Allspice, anise, assault crash
  6833. Date: Sat, 04 May 91 12:58:35 PDT
  6834.  
  6835. When I came in this morning allspice was hung and anise and assault were
  6836. in the debugger. I could not login to allspice because it was
  6837. out of processes. The problem is that when assault dies allspice fills
  6838. its process table with sendmail processes waiting for assault.  Assault
  6839. died because it ran out of memory. I decided to just reboot assault 
  6840. with the hope that this would unwedge allspice so I could debug anise
  6841. which was in the debugger because it tried to unlock a file handle
  6842. that was not locked.  More on anise later.   Assault couldn't reboot
  6843. because allspice wasn't answering its requests for "/".  I tried
  6844. to type L1-i to see what was wrong and the L1-i code seg faulted
  6845. and put allspice in the debugger.  I took a core dump of allspice 
  6846. into /home/ginger/pnh/cores/vmcore.allspice.crash.l1i if the author
  6847. of the L1-i code is interested.  
  6848.  
  6849. The problem with anise appears to be a shell on sedition that was sitting in a 
  6850. deleted directory tree. Each time sedition went thru recovery it
  6851. tried to open this file and crashed anise.   Is this a known bug?
  6852.  
  6853.     Mendel
  6854.  
  6855.  
  6856.  
  6857. Log-Number: 31004
  6858. From: mgbaker (Mary Gray Baker)
  6859. Subject: pc from last Proc: serverMutex allspice crash
  6860. Date: Sun, 05 May 91 15:05:24 PDT
  6861.  
  6862. I forgot to mail out what the pc's were from the message a couple of
  6863. days ago about the proc serverMutex deadlock.`
  6864.  
  6865. The holder pc was 0xf60945f8 which claims to be line 151 in procDebug.c:
  6866.     status = ProcGetNextDebug(...);
  6867.  
  6868. The current pc was 0xf609459c which claims to be line 144 in the same place:
  6869.     the switch on different requests (PROC_GET_THIS_DEBUG, etc).
  6870.  
  6871. I don't think this looks right.
  6872.  
  6873.  
  6874. Mary
  6875.  
  6876.  
  6877. Log-Number: 31005
  6878. Subject: gcc on DECstations lacks the rcsid recognizer?
  6879. Date: Mon, 06 May 91 16:24:04 PDT
  6880. From: Mike Kupfer <kupfer>
  6881.  
  6882. If I build mach/sun3.md/machEeprom.c on a DECstation, I get a
  6883. complaint about the RCS id being defined by not used.  I don't get
  6884. this problem if I build it on a Sun.  I assume that the problem is
  6885. simply that gcc on the DECstations didn't get updated to recognize RCS
  6886. ids.
  6887.  
  6888. mike
  6889.  
  6890.  
  6891. Log-Number: 31007
  6892. Date: Tue, 7 May 91 14:12:25 PDT
  6893. From: elm (ethan miller)
  6894. Subject: another mail/filesystem problem
  6895.  
  6896. Once again, a mail message was munged.  Mail from me to margo@postgres
  6897. had about 600 lines of eklee's spool file appended.  His spool file
  6898. seems to be OK now.  This happened around an allspice crash.  My
  6899. machine is a sun4c; I'm not sure of anything about Ed's machine.
  6900.  
  6901. ethan
  6902.  
  6903.  
  6904. Log-Number: 31008
  6905. Date: Tue, 7 May 91 13:09:52 PDT
  6906. From: shirriff@ginger.Berkeley.EDU (Ken Shirriff)
  6907. Subject: Allspice crash
  6908.  
  6909. Allspice crashed due to an ioctl being done on /dev/raid instead of
  6910. /hosts/raid/...  So this was a user error, not a sprite bug.
  6911.  
  6912. Ken
  6913.  
  6914.  
  6915. Log-Number: 31009
  6916. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  6917. Date: Tue, 7 May 1991 15:30:24 PDT
  6918. Subject: Re: Allspice crash
  6919.  
  6920. I disagree that this isn't a Sprite bug.  I don't think an ioctl should
  6921. ever bring the machine down.
  6922.  
  6923. John
  6924.  
  6925.  
  6926. Log-Number: 31010
  6927. Date: Tue, 7 May 91 15:53:38 PDT
  6928. From: eklee (Edward K. Lee)
  6929. Subject: Re: Allspice crash
  6930.  
  6931. >>I disagree that this isn't a Sprite bug.  I don't think an ioctl should
  6932. >>ever bring the machine down.
  6933.  
  6934. >>John
  6935.  
  6936. Right you are John.
  6937. I've put in checks in the kernel to make sure the same thing doesn't happen
  6938. again.
  6939.  
  6940. Ed
  6941.  
  6942.  
  6943. Log-Number: 31023
  6944. Date: Fri, 10 May 91 08:58:42 PDT
  6945. From: ouster@ginger.Berkeley.EDU (John Ousterhout)
  6946. Subject: Allspice crash
  6947.  
  6948. Allspice died shortly after I came in this morning.  The error message
  6949. was:
  6950.     Kernel page fault at illegal pc: 0xf6032644, addr 0x4973a
  6951.  
  6952. I took a core dump for the ddj, which is on ginger in the file
  6953. /home/ginger/pnh/cores/vmcore.allspice.May10.  I renamed the existing
  6954. vmcore file (about a week old) to vmcore.allspice.whoKnows or
  6955. something like that.  There are quite a few core files in that
  6956. directory now.  Would it make sense to delete some of the older
  6957. ones?
  6958.                     -John-
  6959.  
  6960.  
  6961. Log-Number: 31011
  6962. Date: Tue, 7 May 91 19:22:48 PDT
  6963. From: dlong (Dean Long)
  6964. Subject: rdate
  6965.  
  6966. rdate needs to be relinked.  The 8/23/89 version does not allow blank lines
  6967. in /etc/spritehosts, even though the current C library (Next_Host.c)
  6968. allows blank lines.
  6969.  
  6970. dl
  6971.  
  6972.  
  6973. Log-Number: 31012
  6974. Subject: sun4 ld broken on DECstations
  6975. Date: Wed, 08 May 91 16:58:03 PDT
  6976. From: Mike Kupfer <kupfer>
  6977.  
  6978. The ld for the sun4 that runs on the DECstations seems to be broken. 
  6979. I think that's what caused the problems I had with the sun4 kernel
  6980. Monday night.  I suspect that it's the -r problem that we had last
  6981. year, and that the fixed version was never installed on the
  6982. DECstations.
  6983.  
  6984. mike
  6985.  
  6986.  
  6987. Log-Number: 31013
  6988. Subject: trashed libc source file
  6989. Date: Wed, 08 May 91 20:18:58 PDT
  6990. From: Mike Kupfer <kupfer>
  6991.  
  6992.  
  6993. I discovered that /sprite/src/lib/c/gnulib/sun3.md/_divdf3.s had
  6994. gotten trashed sometime recently.  I restored it from the 10 April
  6995. full dumps and renamed the trashed version to _divdf3.s.bad, in case
  6996. anyone wants to take a look at it.
  6997.  
  6998. mike
  6999.  
  7000.  
  7001. Log-Number: 31014
  7002. Date: Thu, 9 May 91 08:54:46 PDT
  7003. From: root (The Sprite God)
  7004. Subject: anise is down. I someone taking care? Thanks. TvE
  7005.  
  7006. (also: the ipserver on allspice is dead)
  7007.  
  7008.  
  7009. Log-Number: 31015
  7010. Subject: proc macro arguments not in parentheses
  7011. Date: Thu, 09 May 91 11:38:47 PDT
  7012. From: Mike Kupfer <kupfer>
  7013.  
  7014. Many of the macros in the user and kernel proc.h do not put
  7015. parentheses around their arguments.  Thus we have
  7016.  
  7017.   #define Proc_ComparePIDs(p1, p2) (p1 == p2)
  7018.  
  7019. when we really want
  7020.  
  7021.   #define Proc_ComparePIDs(p1, p2) ((p1) == (p2))
  7022.  
  7023. mike
  7024.  
  7025.  
  7026. Log-Number: 31017
  7027. Date: Thu, 9 May 91 13:14:08 PDT
  7028. From: shirriff (Ken Shirriff)
  7029. Subject: xproof can't find fonts
  7030.  
  7031. About 5 days ago xproof quit working for me on the ds3100.  When I try
  7032. to run it, it says: "Unable to load any useable ISO8859-1 fonts."
  7033.  
  7034. Any ideas?
  7035.  
  7036. Ken
  7037.  
  7038.  
  7039. Log-Number: 31020
  7040. Subject: Re: xproof can't find fonts 
  7041. Date: Thu, 09 May 91 14:25:26 PDT
  7042. From: Mike Kupfer <kupfer>
  7043.  
  7044. It works for me, at least to preview man pages.  What are you trying
  7045. to view?  One possibility is that your X server has somehow gotten
  7046. confused and should be restarted.
  7047.  
  7048. mike
  7049.  
  7050.  
  7051. Log-Number: 31021
  7052. Subject: "ld" status
  7053. Date: Thu, 09 May 91 16:21:23 PDT
  7054. From: Mike Kupfer <kupfer>
  7055.  
  7056.  
  7057. The ld in /sprite/cmds.sun4 is apparently from
  7058. /sprite/src/old/cmds/ld.old.  It does the work itself.  The ld in
  7059. cmds.{sun3,symm} and the DECstation gld are front-end programs that
  7060. invoke a machine-specific program in /sprite/lib/gcc to do the real
  7061. work.
  7062.  
  7063. Current problems:
  7064.  
  7065. 1. The sun4 ld in /sprite/lib/gcc/ds3100.md is broken, at least when
  7066. using the -r option.  (The version in sun3.md seems to work, though.) 
  7067. I've replaced it with a shell script, so that "gld -msun4" on a
  7068. DECstation will fail with a useful error message.
  7069.  
  7070. 2. The new ld sources (/sprite/src/cmds/ld.$MACHINE) are in something
  7071. of a chaotic state, particularly the sun4 version.  Furthermore, the
  7072. new ld, at least for the sun4, is broken worse than the ld I just
  7073. disabled.
  7074.  
  7075. It seems to me like we should either
  7076.  
  7077. (a) fix up the "new" ld (the one that uses a front end)
  7078.  
  7079. or
  7080.  
  7081. (b) move the old ld out of /sprite/src/old and back to
  7082. /sprite/src/cmds, and fix the two different versions of ld so that
  7083. "make" will do the right thing depending on the target machine type.
  7084.  
  7085. mike
  7086.  
  7087.  
  7088. Log-Number: 31022
  7089. From: mendel (Mendel Rosenblum)
  7090. Subject: LFS checkpoint corruption bug fixed
  7091. Date: Thu, 09 May 91 20:15:37 PDT
  7092.  
  7093. I fixed the bug that was causing LFS checkpoints to be corrupted. 
  7094. This is the bug that killed /user5 and caused problems for /pcs.
  7095. The problem should not effect the LFS file systems on allspice.
  7096. Only the older LFS file system of which /pcs is the only one
  7097. left are in danger.  Anise should run a kernel made from the
  7098. uninstalled lfs module (such as sun4.md/mendel) until the
  7099. lfs module is installed.
  7100.  
  7101.     Mendel
  7102.  
  7103.  
  7104. Log-Number: 31024
  7105. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7106. Date: Fri, 10 May 1991 10:31:48 PDT
  7107. Subject: copy bug in Fs_ReadLinkStub
  7108.  
  7109.  
  7110. The routine Fs_ReadLinkStub copies stuff directly into user space.
  7111. If the buffer pointer is bogus the machine will crash, as did allspice
  7112. this morning.  I think this bug has already been reported by Mary, since
  7113. it appears that she put in a fix in the uninstalled sources.  The fix
  7114. involves calling Proc_ByteCopy.  
  7115.  
  7116. John
  7117.  
  7118.  
  7119. Log-Number: 31026
  7120. From: mgbaker (Mary Gray Baker)
  7121. Subject: Re: copy bug in Fs_ReadLinkStub 
  7122. Date: Fri, 10 May 91 11:23:38 PDT
  7123.  
  7124. This bug has indeed been fixed.  But it's in the uninstalled module still.
  7125.  
  7126.  
  7127. Mary
  7128.  
  7129.  
  7130. Log-Number: 31027
  7131. Date: Fri, 10 May 91 11:49:19 -0700
  7132. From: slater@ucbarpa.Berkeley.EDU (Mel Slater)
  7133. Subject: screen damage
  7134.  
  7135. I use X11 a lot on sprite, and it is getting more difficult
  7136. to use, because now every few seconds there is an "assault -recovery"
  7137. message which damages the display. I don't know if this is already
  7138. known, so  thought I'd better report it.
  7139.  
  7140.  
  7141. Log-Number: 31028
  7142. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7143. Date: Fri, 10 May 1991 11:59:16 PDT
  7144. Subject: Re: screen damage
  7145.  
  7146. You need to cat the syslog device /dev/syslog into a window. Otherwise
  7147. it goes to the console which screws up your screen.  I have use the following
  7148. line in my .xsetup file:
  7149.  
  7150. tx -title /dev/syslog =80x9-0+0 ${DISPLAY} -e cat /dev/syslog
  7151.  
  7152.  
  7153. Give it a try.
  7154.  
  7155. John
  7156.  
  7157.  
  7158. Log-Number: 31029
  7159. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7160. Date: Fri, 10 May 1991 12:29:55 PDT
  7161. Subject: update semantics
  7162.  
  7163.  
  7164. The update command has kind of funny semantics.  If I say 
  7165. "update /foo1 /foo2 /bar" it will make /bar/foo1 and /bar/foo2.
  7166. If I say "update /foo1 /bar" it will take the contents of /foo1 and
  7167. put them in /bar.  I can't figure out any way to get it to make /bar/foo1.
  7168. Thus the behavior of update is dependent on the number of command line 
  7169. options.  It seems to me that the latter behavior should be specified via
  7170. a command-line option.  On the other hand, the current behavior of 
  7171. "update /foo1 /bar" is similar for files and directories, which is why
  7172. it was probably done this way in the first place.  Any comments?  I hate
  7173. to add the option because lots of scripts will probably break.
  7174.  
  7175. John
  7176.  
  7177.  
  7178. Log-Number: 31031
  7179. Date: Fri, 10 May 91 13:17:04 PDT
  7180. From: ouster (John Ousterhout)
  7181. Subject: Re: update semantics
  7182.  
  7183. In the distant past we had many arguments about how to do the
  7184. arguments for update, and we eventually settled on the current
  7185. scheme as the best among many imperfect alternatives.  I'd vote
  7186. against changing it without first doing a very thorough analysis
  7187. of the alternatives and their failure modes.
  7188.  
  7189. John's current problem can be solved with the command
  7190. "update /foo1 bar/foo1", I think.
  7191.                     -John-
  7192.  
  7193.  
  7194. Log-Number: 31033
  7195. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7196. Date: Fri, 10 May 1991 17:02:19 PDT
  7197. Subject: migration questions
  7198.  
  7199.  
  7200. > From jclee Fri May 10 16:10:56 1991
  7201. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  7202. >     id AA670786; Fri, 10 May 91 16:10:54 PDT
  7203. > Date: Fri, 10 May 91 16:10:54 PDT
  7204. > From: jclee (James C. Lee)
  7205. > Message-Id: <9105102310.AA670786@sprite.Berkeley.EDU>
  7206. > To: jhh
  7207. > Subject: migration question
  7208. > John,
  7209. > I'm using pmake to run 4 simulation processes in background priority:
  7210. > pmake -b -R -L 1 -f sim.s0.p1.b32.id1k.m10.t1
  7211. > I get the following message:
  7212. > JobFlagForMigration: warning: eviction of process 63c0c apparently did not complete.
  7213. > And I look at the process in question and it's still running on the machine
  7214. > it migrated to. Runnin "rup" indicates that the machine it migrated to is
  7215. > "inuse." 2 questions:
  7216. > 1. Apparantly the process didn't get evicted automatically, is this a bug?
  7217. > 2. If the process stays on the "migrated" system, with the above pmake
  7218. >    flag (-b), would it affect the owner of the system? Right now one of my
  7219. >    process is on loiter--I think it's your machine. Do you notice any
  7220. >    performance degradation? And if so, is there a flag I can specify to
  7221. >    make sure that the processes remigrate in a nice fashion, automagically?
  7222. > Thanks.
  7223. > James
  7224.  
  7225.  
  7226.  
  7227. Log-Number: 31041
  7228. From: Fred Douglis <douglis@cs.vu.nl>
  7229. Subject: migration questions
  7230. Date: Sun, 12 May 91 13:08:14 +0200
  7231.  
  7232. The "don't migrate" flag is set when a process is a pdev master, or
  7233. (perhaps?) when it shares its heap with another process.  Once set
  7234. it's never cleared.  There's clearly a bug lurking around if the
  7235. migration daemon attempts to migrate an unmigratable foreign process.
  7236. As for processes being unmigratable in the first place, it's just a
  7237. matter of implemention, right? :-)  Another possibility, as a
  7238. work-around, would be to evict foreign processes when they do
  7239. something that would make them unmigratable, and then pin them to
  7240. their home machine rather than a foreign machine.  Of course, without
  7241. the hooks to notify another process that the eviction has occurred,
  7242. you could wind up with some load-balancing problems.
  7243.  
  7244. Fred
  7245.  
  7246.  
  7247. Log-Number: 31034
  7248. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7249. Date: Fri, 10 May 1991 17:16:00 PDT
  7250. Subject: more on migration questions
  7251.  
  7252.  
  7253. Jclee is running simulations using pmake with the "-b" for background flag.
  7254. As his mail indicated there might be a problem here.  Currently one
  7255. of his jobs is running on my machine, and I'm definitely using the machine.
  7256. His process cannot be evicted and appears to be a local job even though
  7257. it isn't.
  7258.  
  7259. John
  7260.  
  7261.  
  7262. Log-Number: 31035
  7263. Subject: Re: more on migration questions 
  7264. Date: Fri, 10 May 91 17:29:22 PDT
  7265. From: Mike Kupfer <kupfer>
  7266.  
  7267. I noticed last week or the week before a migrated job on arson that
  7268. had the "don't migrate" flag set, so it couldn't migrate home.  I
  7269. couldn't figure out how the flag had gotten set, and the process
  7270. eventually died when I put arson into the debugger to figure out what
  7271. was going on.  One thing to note is that once the "don't migrate" flag
  7272. is set, it is never cleared.
  7273.  
  7274. mike
  7275.  
  7276.  
  7277. Log-Number: 31036
  7278. Date: Sat, 11 May 91 09:47:55 PDT
  7279. From: gibson (Garth Gibson)
  7280. Subject: nulls in my mail file
  7281.  
  7282. I was about to delete my (infrequently read) Sprite mail file.  It reports:
  7283.  
  7284. forgery 87> mail
  7285. Warning: encountered nulls at 1760368.  Mail spool file may be damaged.
  7286. "/sprite/spool/mail/gibson": 1803 messages 898 new 1729 unread
  7287. & x
  7288.  
  7289. If you care to examine, feel free.  When you get back to me, I'll delete
  7290. this file.
  7291.  
  7292. ALSO, please take my name off all sprite aliases except spriteusers, raid,
  7293. spurretro, and xprs
  7294.  
  7295. thanks
  7296. garth
  7297.  
  7298.  
  7299. Log-Number: 31037
  7300. Date: Sat, 11 May 91 15:00:11 PDT
  7301. From: eklee (Edward K. Lee)
  7302. Subject: ds5000 binary compatibility problem
  7303.  
  7304. We're trying to run the workview binararies for ds5000's on Sprite and have
  7305. run into a problem.
  7306. We are in a hurry and would appreciate it if you could look into this soon.
  7307.  
  7308. Do the following to duplicate the problem:
  7309. --------------
  7310. forgery% su eklee
  7311. forgery% cd /r3/raid/viewlogic/raidII/xbus
  7312. forgery% check -s xbuspullup
  7313.  
  7314. CHECK - V3.25; Workview 4.0a, 8000 Series
  7315. Copyright (c) 1990 by Viewlogic Systems, Inc.
  7316. Unable to generate directory ./sch/
  7317. Unable to generate directory ./sym/
  7318. Unable to generate directory ./wir/
  7319. Unable to generate directory ./sch/log/
  7320. Unable to generate directory ./sym/log/
  7321. Unable to generate directory ./sch/bac/
  7322. Unable to generate directory ./sym/bac/
  7323. forgery%
  7324. --------------
  7325. Note that the directories it tried to create already exist.
  7326.  
  7327. You should also get a bunch of error mesages to the syslog:
  7328. --------------
  7329. MachUNIXGetDirEntries: Bad directory format
  7330. MachUNIXGetDirEntries: Bad directory format
  7331. MachUNIXGetDirEntries: Bad directory format
  7332. MachUNIXGetDirEntries: Bad directory format
  7333. MachUNIXGetDirEntries: Bad directory format
  7334. MachUNIXGetDirEntries: Bad directory format
  7335. --------------
  7336.  
  7337. Near line 1679 of machUNIXSyxcall.c, which prints the above syslog message,
  7338. there is a rather odd comparison:
  7339. --------------
  7340.             if (dirPtr->nameLength <= FS_MAX_NAME_LENGTH) {
  7341.                 printf("MachUNIXGetDirEntries: Bad directory format\n");
  7342.             }
  7343. --------------
  7344. At first I thought the comparison was at fault, but it doesn't do anything
  7345. but print a message.
  7346.  
  7347. Ed
  7348.  
  7349.  
  7350. Log-Number: 31039
  7351. Date: Sat, 11 May 91 18:21:10 PDT
  7352. From: eklee (Edward K. Lee)
  7353. Subject: getdirentries
  7354.  
  7355. getdirentries currently just performs Fs_Read and returns the result.
  7356. This doesn't work accross machines with differnt byte orders.
  7357.  
  7358. Ed
  7359.  
  7360. P.S. This does not solve the earlier binary compatibility problem I reported
  7361. earlier.
  7362.  
  7363.  
  7364. Log-Number: 31040
  7365. Date: Sat, 11 May 91 22:41:08 PDT
  7366. From: eklee (Edward K. Lee)
  7367. Subject: X binary compatibility problems on ds5000
  7368.  
  7369. It works on ds3100's but not on ds5000's.
  7370. I tried running workview on forgery and displaying on basil but that also did
  7371. not work.
  7372. I can run the unix version of workview on basil and display on forgery, however.
  7373.  
  7374. Ed
  7375. ----------
  7376. forgery% su eklee
  7377. forgery% workview
  7378.     <...>
  7379. Error: Can't open X display: forgery.Berkeley.EDU:0.0
  7380. Workview 8000 - V4.0a
  7381. forgery% 
  7382.  
  7383.  
  7384. Log-Number: 31042
  7385. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7386. Date: Sun, 12 May 1991 10:06:08 PDT
  7387. Subject: decstation binary compatibility
  7388.  
  7389.  
  7390. Here is a followup message from Ed about the binary compatibility problems
  7391. on the decstations.
  7392.  
  7393. > From eklee Sat May 11 17:54:39 1991
  7394. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  7395. >     id AA397354; Sat, 11 May 91 17:54:37 PDT
  7396. > Date: Sat, 11 May 91 17:54:37 PDT
  7397. > From: eklee (Edward K. Lee)
  7398. > Message-Id: <9105120054.AA397354@sprite.Berkeley.EDU>
  7399. > To: jhh@sprite.Berkeley.EDU
  7400. > Subject: Re: ds5000 binary compatibility problem
  7401. > The same problem occures on ds3100.
  7402. > It appears to be a byteswapping problem.
  7403. > >From a decstation, the getdirentries system call works on file systems exported
  7404. > by decstations but not those exported by sparcstations or sun4's.
  7405. > Ed
  7406.  
  7407.  
  7408.  
  7409. Log-Number: 31043
  7410. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7411. Date: Sun, 12 May 1991 17:44:47 PDT
  7412. Subject: bug w/ interaction of fscheck, lfs
  7413.  
  7414.  
  7415. I've fixed a bug in fscheck that caused it to crash if the 'a'
  7416. partition of a disk contained an LFS.  For some reason fscheck
  7417. would read the label off the 'a' partition.  Because the 'a'
  7418. partition contained an LFS it wouldn't be able to find the domain
  7419. header and it would crash.  The real bug is that it shouldn't use
  7420. the 'a' partition but should use whatever parition it is checking.
  7421. I didn't change this when I rewrote fscheck because I didn't know
  7422. why it was done.  I still don't know why it is done but I got rid
  7423. of it anyway.  This means that the copy of the disk label in each
  7424. partition must all be identical.  The old fscheck might have been
  7425. more robust if someone changed only the first label and not the
  7426. copies, but if this happens I'm sure that other things will break
  7427. anyway.  Besides, fscheck is on its way to retirement.
  7428.  
  7429. John
  7430.  
  7431.  
  7432. Log-Number: 31045
  7433. Date: Sun, 12 May 91 18:56:32 PDT
  7434. From: mendel (Mendel Rosenblum)
  7435. Subject: Re: Lfs killed allspice
  7436.  
  7437. > Allspice died with:
  7438. > SCSI #3 DMA bus error
  7439. > Lfs error on /sprite/src/kernel status 0x1 bad lfsStable MemBlockHdr
  7440. > I took a core: vmcore.lfs
  7441.  
  7442. The problem here is not in LFS but in the SCSI HBA hardware or driver.
  7443. The HBA is aborting the LFS read operation with a DMA bus error 
  7444. operation.  This appears to happen when the system is doing much
  7445. I/O such as during fscheck the disk.  It appears that LFS can
  7446. also trigger the condition.  We need to either fix this or 
  7447. put in a patch to retry the operation that gets aborted. 
  7448.  
  7449.     Mendel
  7450.  
  7451.  
  7452.  
  7453. Log-Number: 31046
  7454. Date: Sun, 12 May 91 19:07:10 PDT
  7455. From: eklee (Edward K. Lee)
  7456. Subject: Re: kdbx on ds5000 fixed
  7457.  
  7458. >>From jhh  Sun May 12 18:34:39 1991
  7459. >>From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7460. >>Date: Sun, 12 May 1991 18:34:38 PDT
  7461. >>X-Mailer: Mail User's Shell (7.1.1 5/02/90)
  7462. >>To: sprite
  7463. >>Subject: kdbx on ds5000 fixed
  7464.  
  7465.  
  7466. >>I fixed the problem where you couldn't run kdbx on a ds5000.  There
  7467. >>was an ifdef ds3100 in bootcmds that I overlooked.
  7468.  
  7469. >>As an aside, I'm wondering whether we should add an environment
  7470. >>variable named OS that would be set to the type of operating system
  7471. >>that the machine should emulate.   Having it would clean up lots
  7472. >>of ifdefs, and would allow people to have $OS in their paths once
  7473. >>we start using binary versions of commands..  It might even make
  7474. >>sense to have it understood by the filesystem as is MACHINE.  Would
  7475. >>this make it easier to do the binary compatibility?
  7476.  
  7477. >>John
  7478.  
  7479. This was the same bug that prevented workview from opening the X display.
  7480. You can ignore my earlier bug report.
  7481.  
  7482. John, what exactly was ifdef'ed out?
  7483.  
  7484. Ed
  7485.  
  7486.  
  7487.  
  7488. Log-Number: 31047
  7489. Date: Sun, 12 May 91 20:38:14 PDT
  7490. From: shirriff (Ken Shirriff)
  7491. Subject: Allspice had Fsio_FileCloseInt problem
  7492.  
  7493. Allspice timed out for a couple minutes and then did consistency stuff
  7494. and came back.  It had the mysterious message:
  7495. Fsio_FileCloseInt: almost returned FS_FILE_REMOVED w/handle locked
  7496. on the console.
  7497.  
  7498.  
  7499. Log-Number: 31049
  7500. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7501. Date: Sun, 12 May 1991 20:53:07 PDT
  7502. Subject: Re: Allspice had Fsio_FileCloseInt problem
  7503.  
  7504. I put this message in when I fixed the bug whereby Proc_ServerProcs
  7505. were leaving handles locked.  I wanted to verify that the race did
  7506. indeed exist.  Any time the message is printed it means that the
  7507. old kernel would have wedged.  There is a comment about all of this
  7508. in the code, but I suppose it is time to remove it anyway since
  7509. the bug seems to be fixed.
  7510.  
  7511. John
  7512.  
  7513.  
  7514. Log-Number: 31050
  7515. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7516. Date: Mon, 13 May 1991 10:03:57 PDT
  7517. Subject: handle not locked bug
  7518.  
  7519.  
  7520. Anise died due to the handle not locked bug.  I think this one is 
  7521. increasing in frequency and will soon become a big problem.
  7522.  
  7523. John
  7524.  
  7525.  
  7526. Log-Number: 31051
  7527. Subject: infinite loop crons
  7528. Date: Mon, 13 May 91 12:18:54 PDT
  7529. From: Mike Kupfer <kupfer>
  7530.  
  7531.  
  7532. When I came in today, there were a couple crons running in an infinite
  7533. loop on sage.  "kill -DEBUG" had no effect on them, so I nuked them
  7534. ("kill -9").  Shortly after that I noticed a couple messages in sage's
  7535. syslog, which may or may not be relevant:
  7536.  
  7537.   Warning: VmSwapFileRemove: Fs_Remove(/swap/33/137) returned 4000c.
  7538.   Reopening swap directory.
  7539.   Warning: VmSwapFileRemove: Fs_Remove(/swap/33/29) returned 4000c.
  7540.   Reopening swap directory.
  7541.  
  7542. mike
  7543.  
  7544.  
  7545. Log-Number: 31052
  7546. From: tve (Thorsten von Eicken)
  7547. Subject: Re: infinite loop crons 
  7548. Date: Mon, 13 May 91 12:20:18 PDT
  7549.  
  7550. I had one on crackle too.
  7551.     TvE
  7552.  
  7553.  
  7554. Log-Number: 31053
  7555. Subject: allspice hung doing consistency on spritehosts
  7556. Date: Mon, 13 May 91 15:20:09 PDT
  7557. From: Mike Kupfer <kupfer>
  7558.  
  7559.  
  7560. I rebooted allspice around 1300 (1pm) because several clients had
  7561. stuck RPCs and I couldn't log in on the console (as root). 
  7562. Investigating the core dump shows that the hung RPCs were all waiting
  7563. for someone to finish a consistency check on /etc/spritehosts.  (My
  7564. notes from doing L1-p show that a couple user processes on allspice
  7565. were also waiting on the same thing.)
  7566.  
  7567. >From what I can tell from the code, there is a one-minute timeout on
  7568. consistency calls.  I don't remember how long I waited before putting
  7569. allspice into the debugger, but it was at least long enough to walk
  7570. between the machine room and 608-2 a couple times.  What happens when
  7571. the call times out?  Or, more precisely, what happens to future calls
  7572. that reference the file that's being checked (/etc/spritehosts in this
  7573. case)?  Is there a one-minute timeout for each RPC?
  7574.  
  7575. There were messages on allspice's console saying that it was waiting
  7576. for a hung RPC to arson; there were also messages in arson's syslog
  7577. saying that it was waiting for allspice.  I don't know whether there
  7578. was really a distributed deadlock or whether the system had simply
  7579. become temporarily constipated.  If anyone has suggestions for
  7580. additional things to look for in the core dump, please send me mail.
  7581.  
  7582. mike
  7583.  
  7584.  
  7585. Log-Number: 31054
  7586. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7587. Date: Mon, 13 May 1991 15:33:44 PDT
  7588. Subject: Re: allspice hung doing consistency on spritehosts
  7589.  
  7590. There is a one-minute timeout per RPC.  Note that this is actually one
  7591. minute between the server doing a consist RPC to the client, and when
  7592. the client does a consist reply rpc to the server.  Thus it can take
  7593. quite a while if there are a lot of clients to timeout on.
  7594.  
  7595. John
  7596.  
  7597.  
  7598. Log-Number: 31055
  7599. Date: Wed, 15 May 91 12:01:35 PDT
  7600. From: bmiller (Bob Miller)
  7601. Subject: "./xgone" message
  7602.  
  7603.  
  7604. Am I the only one getting this message in my console window?
  7605.  
  7606. "open of "./xgone" wating for recovery"
  7607.  
  7608. What's causing this?????
  7609.  
  7610.  
  7611. Log-Number: 31056
  7612. Subject: Re: /graphics 
  7613. Date: Wed, 15 May 91 14:08:30 PDT
  7614. From: Mike Kupfer <kupfer>
  7615.  
  7616. > Date: Tue, 14 May 91 02:44:51 -0700
  7617. > From: root@bezier.Berkeley.EDU (System PRIVILEGED Account)
  7618. > To: root@sprite.Berkeley.EDU
  7619. > Subject: /graphics
  7620. > I'm having trouble mounting /graphics.  It used to work (up until yesterday)
  7621. > The error I'm getting is:
  7622. > assault:/graphics server not responding: port mapper failure - rpc timed out
  7623.  
  7624. This should be working now.  Let us know if it fails again.
  7625.  
  7626. [For the bugs list: the unfsd on assault was gone when I checked
  7627. Tuesday afternoon.  I restarted it but continued to get the "port
  7628. mapper failure" message when I tried to mount /graphics on ginger. 
  7629. Rather than manually restart the portmapper (and all the Sun RPC
  7630. programs that use it), I rebooted assault.]
  7631.  
  7632. mike
  7633.  
  7634.  
  7635. Log-Number: 31057
  7636. Date: Wed, 15 May 91 14:46:42 PDT
  7637. From: mottsmth (Jim Mott-Smith)
  7638. Subject: Starting X on Coons
  7639.  
  7640.  
  7641. I can't seem to start X on Coons.  Typing 'xinit' generates
  7642.     couldn't open /dev/mouse
  7643. and terminates.  Does Coons have a special board or
  7644. something that might be causing this?
  7645.  
  7646. -- Jim M-S
  7647.  
  7648.  
  7649. Log-Number: 31060
  7650. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7651. Date: Wed, 15 May 1991 15:27:01 PDT
  7652. Subject: Re: Starting X on Coons
  7653.  
  7654. Coons has a graphics accelerator that we don't support.
  7655.  
  7656. John
  7657.  
  7658.  
  7659. Log-Number: 31061
  7660. Subject: old pmake on blackmail
  7661. Date: Wed, 15 May 91 16:56:48 PDT
  7662. From: Mike Kupfer <kupfer>
  7663.  
  7664.  
  7665. It looks like the pmake on blackmail is old.  It doesn't seem to
  7666. understand expressions with "==" in them, and the strings in it are
  7667. different from the strings in the sun4 pmake.  Not recognizing "==" 
  7668. means that the new "settm.mk" breaks.  Do we care?
  7669.  
  7670. mike
  7671.  
  7672.  
  7673. Log-Number: 31064
  7674. From: mgbaker (Mary Gray Baker)
  7675. Subject: cached attribute update problem
  7676. Date: Wed, 15 May 91 19:40:52 PDT
  7677.  
  7678. If you add or remove a file in a directory, it seems that the data modify
  7679. time on the directory and the size of the directory should change.
  7680. But it doesn't, at least not for a while.  The problem is that the update
  7681. is made to the descriptor, but not to the cached attributes.  Can anyone
  7682. think of a good reason why I can't just add the update to the cached
  7683. attributes too?  This would fix a couple of problems I've been having with
  7684. Sprite.
  7685.  
  7686.  
  7687. Mary
  7688.  
  7689.  
  7690. Log-Number: 31065
  7691. Date: Thu, 16 May 91 01:45:59 PDT
  7692. From: Dean Long <dlong@@>
  7693. Subject: weird prefix behavior
  7694.  
  7695. Sprite lets you mount a prefix on top of a directory (not just special
  7696. files created by ln -r).  For example, I can have a directory
  7697. /sprite with a sub-directory /sprite/cmds.sun4, and then mount a /sprite
  7698. prefix on top of the /sprite directory on the / partition.  Now,
  7699. I can access either one.  To access the prefix, I can use /sprite,
  7700. and to access the sprite directory of /, I can use /./sprite.  Now
  7701. the fun part comes with you do "cd .." from /./sprite/cmds.sun4 --
  7702. infinite loop -- your shell hangs, and you have to kill -KILL the
  7703. whole thing.
  7704.  
  7705. dl
  7706.  
  7707.  
  7708. Log-Number: 31066
  7709. Date: Thu, 16 May 91 08:32:45 PDT
  7710. From: bmiller (Bob Miller)
  7711. Subject: followup to "./xgone" message
  7712.  
  7713.  
  7714. for what it's worth, the './xgone waiting for recovery' message only
  7715. seems to show up while I'm here.  I scrolled back through the console
  7716. window and found that it never appeared from around 5 p.m. last night
  7717. until 7:45 a.m. this morning.
  7718.  
  7719.  
  7720. Log-Number: 31068
  7721. Date: Thu, 16 May 91 13:19:00 PDT
  7722. From: Dean Long <dlong@oak.ucsc.edu>
  7723. Subject: prefixes without a /
  7724.  
  7725. If I do something like this:
  7726.  
  7727. prefix -M /dev/rsd01a -l root_back
  7728.  
  7729. and forget to put a / in front of root_back, it still
  7730. gets mounted, but I cannot access it, or unmount it
  7731. (at least, I haven't figured out how yet.)
  7732.  
  7733. dl
  7734.  
  7735.  
  7736. Log-Number: 31058
  7737. Date: Wed, 15 May 91 14:56:41 PDT
  7738. From: eklee (Edward K. Lee)
  7739. Subject: nfsmount problem
  7740.  
  7741. The last two problems with ginger and assault (once yesterday and once today
  7742. (5/15) at 2:50pm) were caused by performing the following actions (I didn't
  7743. realized until now that this was what was causing the problems or I wouldn't
  7744. have done it the second time.):
  7745.  
  7746. forgery% su eklee
  7747. forgery% cd /home/ginger/raid/viewlogic/raidII/xbus
  7748. forgery% vsm xbusreg
  7749.  
  7750. We don't need it fixed; I just thought I would report it.
  7751.  
  7752. Ed
  7753.  
  7754.  
  7755. Log-Number: 31059
  7756. Date: Wed, 15 May 91 15:25:15 PDT
  7757. From: eklee (Edward K. Lee)
  7758. Subject: nfsmount problem
  7759.  
  7760. I believe that this problem is related to the earlier binary compatibility
  7761. problem I reported about 'check -s xbuspullup' not working.
  7762. In that case, it was because getwd(path) returned the incorrect pathname
  7763. for remote links  (this is a known problem and one that is apparently
  7764. difficult to fix).  I believe that getwd(path) when executed from sprite
  7765. on an nsfmounted partition causes ginger to die.
  7766.  
  7767. On the bright side, here one bug that causes ginger to die but leaves
  7768. Sprite relatively unaffected!
  7769.  
  7770. Ed
  7771.  
  7772.  
  7773. Log-Number: 31067
  7774. Date: Thu, 16 May 91 12:01:47 PDT
  7775. From: tve (Thorsten von Eicken)
  7776. Subject: update from sprite to nfs doesn't work with symbolic links
  7777.  
  7778. It creates a regular null file instead. This is running
  7779. update on either a ds3100 or a sun4.
  7780.     TvE
  7781.  
  7782.  
  7783.  
  7784. Log-Number: 31069
  7785. Date: Thu, 16 May 91 15:00:25 PDT
  7786. From: tve (Thorsten von Eicken)
  7787. Subject: executing nfs-mounted files
  7788.  
  7789. What's the status of that? We really would like to have it. Thanks,
  7790.     TvE
  7791.  
  7792.  
  7793. Log-Number: 31070
  7794. Date: Thu, 16 May 91 16:19:21 PDT
  7795. From: root (The Sprite God)
  7796. Subject: nfsmount still gets big
  7797.  
  7798. assault-6# ps -vw 132 e1954
  7799. PID   CODSZ CODRS  HPSZ  HPRS STKSZ STKRS  SIZE   RSS COMMAND
  7800. e1954   124   100 21436  9028     8     8 21568  9136 nfsmount boing:/boing/tic
  7801. /boing/tic
  7802. -----------------------------------------------------
  7803. Total   124   100 21436  9028     8     8 21568  9136
  7804. ... just for the records.
  7805.  
  7806.  
  7807. Log-Number: 31071
  7808. Subject: ANSI compatibility (whining)
  7809. Date: Fri, 17 May 91 18:56:07 PDT
  7810. From: Mike Kupfer <kupfer>
  7811.  
  7812. It sure would be nice if we had an ANSI-compatible C library (e.g.,
  7813. one in which "scanf" with "%i" recognizes a hex number correctly). 
  7814. Maybe for spring cleaning we could steal part or all of the BSD C
  7815. library?
  7816.  
  7817. mike
  7818.  
  7819.  
  7820. Log-Number: 31072
  7821. Date: Fri, 17 May 91 23:32:34 PDT
  7822. From: dlong (Dean Long)
  7823. Subject: prefix
  7824.  
  7825. prefix needs to be relinked for the same reason as rdate -- it does not
  7826. read /etc/spritehosts correctly if you have the right combination of
  7827. blank lines and comments.
  7828.  
  7829. dl
  7830.  
  7831.  
  7832. Log-Number: 31075
  7833. Date: Sat, 18 May 91 00:33:19 PDT
  7834. From: Dean Long <dlong@oak.ucsc.edu>
  7835. Subject: df too
  7836.  
  7837. Just like rdate and prefix, df needs to be relinked.  Any command that
  7838. accesses /etc/spritehosts needs to be relinked (if it hasn't been
  7839. relinked more recently than 8/23/89, when Host_Next was changed
  7840. to allow blank lines)
  7841.  
  7842. dl
  7843.  
  7844.  
  7845. Log-Number: 31074
  7846. Date: Fri, 17 May 91 23:40:10 PDT
  7847. From: dlong (Dean Long)
  7848. Subject: more on mounting prefixes on directories
  7849.  
  7850. If you mount a prefix on a directory, and then export the prefix,
  7851. the machine that imports it gets the directory that is
  7852. "underneath" the prefix.
  7853.  
  7854. dl
  7855.  
  7856.  
  7857. Log-Number: 31077
  7858. Date: Mon, 20 May 91 16:18:23 -0700
  7859. From: sullivan@postgres.Berkeley.EDU (Mark Sullivan)
  7860. Subject: file system bug
  7861.  
  7862.  
  7863. I was remotely logged into babylon (the only sprite machine belonging
  7864. to the postgres group is in another office).  Trying to run pmake
  7865. but it kept failing with strange errors of the form:
  7866.  
  7867. Object file format error in: regproc.o: bad file magic number
  7868.  
  7869. Turns out that my disk was 100% full and I couldn't see the 
  7870. "writeback error: disk full" messages on the console because
  7871. I was remotely logged in.  I was doing a big pmake so it took a 
  7872. long time before I noticed that the pmake wasn't working.
  7873.  
  7874. Now Babylon is in pretty bad shape.  The cache seems to be sufficiently 
  7875. full that I can't page in commands (ls,rm,df, and mail all hung).  
  7876. There are messages on the console about trying to recover the command 
  7877. executable files.  I'm going to try to reboot babylon to clear out the 
  7878. cache.  Isn't there something that can be done to make write() system
  7879. calls fail once writebacks to the disk start to fail? 
  7880.  
  7881. Mark 
  7882.  
  7883.  
  7884. Log-Number: 31078
  7885. Subject: kgdb broken for sun3
  7886. Date: Mon, 20 May 91 17:16:48 PDT
  7887. From: Mike Kupfer <kupfer>
  7888.  
  7889. The new kgdb (version 3.5) is unable to set a breakpoint on a sun3. 
  7890. It complains that the address it's setting the breakpoint at is
  7891. illegal.
  7892.  
  7893. I've renamed files in /sprite/cmds.sun? so that you get the 3.2
  7894. kgdb.sun3 (which works).
  7895.  
  7896. mike
  7897.  
  7898.  
  7899. Log-Number: 31079
  7900. Subject: "type" and "flag" fields
  7901. Date: Mon, 20 May 91 17:53:34 PDT
  7902. From: Mike Kupfer <kupfer>
  7903.  
  7904.  
  7905. A common practice in Sprite is to declare a type or flags field as an
  7906. integer, with the various possible values "defined below".  However,
  7907. it's not always easy to find the #defines, especially if
  7908.  
  7909.   (1) they or the struct get moved 
  7910. or
  7911.   (2) there are multiple sets of values "defined below".  
  7912.  
  7913. Consider, for example, Fs_FileID, which is defined in user/fs.h. 
  7914. Until 5 minutes ago the comments for "type" said "Defined below", even
  7915. though the definitions are really in fsio.h.  (And comments in fsio.h
  7916. claimed that the types were defined in fs.h.)
  7917.  
  7918. I think we should change the Sprite coding conventions to make this
  7919. problem less likely to occur.  I can think of two ways to make the
  7920. change.
  7921.  
  7922. The first way is to use higher-level features of C, i.e., enums (for
  7923. types) and bitfields (for flags).
  7924.  
  7925. The second way is to use a bit of syntactic sugar and more programmer
  7926. discipline.  So, to take the Fs_FileID example, instead of declaring
  7927. "type" as
  7928.  
  7929.     int        type;        /* Defined below. Used in I/O switch, and
  7930.                  * implicitly indicates what kind of structure
  7931.                  * follows the FsHandleHeader in the Handle. */
  7932.  
  7933. we could declare it as
  7934.  
  7935.     Fsio_StreamType type;    /* Used in I/O switch, and implicitly
  7936.                  * indicates what kind of structure follows
  7937.                  * the FsHandleHeader in the Handle. */
  7938.  
  7939. where Fs_StreamType is simply a typedef for int.  The #defines for
  7940. stream types would follow immediately after the Fs_StreamType typedef.
  7941. Thus there are no potentially bogus "defined below" comments, and by
  7942. putting the defines next to the typedef, the Right Thing is more
  7943. likely to happen if something gets moved.
  7944.  
  7945. mike
  7946.  
  7947.  
  7948. Log-Number: 31080
  7949. Subject: Re: problem with mail 
  7950. Date: Tue, 21 May 91 12:00:59 PDT
  7951. From: Mike Kupfer <kupfer>
  7952.  
  7953. > Date: Tue, 21 May 91 11:53:56 PDT
  7954. > From: bertrand (Bertrand Irissou)
  7955. > Subject: problem with mail 
  7956. >  I am getting the following warning when I startup mail:
  7957. >  mail
  7958. > Warning: encountered nulls at 110317.  Mail spool file may be damaged.
  7959. > Mail version 5.4 6/29/88.  Type ? for help.
  7960. >  What is that supposed to mean?
  7961. > Bertrand
  7962.  
  7963. We've been having problems with files getting munged occasionally.  It
  7964. sounds like that happened to your mail.  You probably want to check
  7965. for mail messages that got truncated or otherwise damaged, and it
  7966. might not hurt to send mail to your regular email correspondents,
  7967. asking if they've sent you anything important recently.
  7968.  
  7969. Sorry about all the bother this is causing you.
  7970.  
  7971. mike
  7972.  
  7973.  
  7974. Log-Number: 31081
  7975. Subject: /pcs/vlsi is having problems
  7976. Date: Wed, 22 May 91 16:17:21 PDT
  7977. From: Mike Kupfer <kupfer>
  7978.  
  7979. I was in the machine room to check on raid1 and I noticed a bunch of
  7980. error messages on assault's console.
  7981.  
  7982.   Warning: SCSI Disk SII#0 Target 4 LUN 0 error: media error - info
  7983.     bytes 0x0 0x0 0x3c 0x58
  7984.   File blk 1931 phys blk 7724: 5/22/91 12:55:13 broadcast (0) File
  7985.     "(NULL)" <4,0>
  7986.   Write-back failed: DISK ERROR
  7987.   OfsBlockRealloc: Bad descriptor block. Domain=4 block=7724.
  7988.  
  7989. mike
  7990.  
  7991.  
  7992. Log-Number: 31086
  7993. From: mendel (Mendel Rosenblum)
  7994. Subject: Allspice ipServer dies / sendmail problem
  7995. Date: Thu, 23 May 91 11:18:14 PDT
  7996.  
  7997.  
  7998. Sendmail on allspice was comatose this morning.  I suspect it went comatose
  7999. about the time the following messages appeared in allspice's syslog:
  8000.  
  8001. <18>May 23 07:51:55 sendmail[40e38]: NOQUEUE: SYSERR: getrequests: accept: invalid argument
  8002.  
  8003. I did a kill -KILL on the sendmail process and the ipServer on allspice
  8004. died. 
  8005.  
  8006.     Mendel
  8007.  
  8008.  
  8009. Log-Number: 31089
  8010. Subject: dvi2ps versus dvi2ps.new
  8011. Date: Thu, 23 May 91 14:38:07 PDT
  8012. From: Mike Kupfer <kupfer>
  8013.  
  8014.  
  8015. There are to be two versions of dvi2ps in /sprite/src/adobecmds.  The
  8016. dvi2ps.new version doesn't appear to actually be used, however--there
  8017. aren't any .md directories.  Also, the sources in dvi2ps.new appear to
  8018. be older than the ones in dvi2ps.  Can anyone think of a reason for
  8019. keeping dvi2ps.new?
  8020.  
  8021. mike
  8022.  
  8023.  
  8024. Log-Number: 31090
  8025. From: tve (Thorsten von Eicken)
  8026. Subject: Re: dvi2ps versus dvi2ps.new (and dvips vs. dvips.new, and TeX 3.0)
  8027. Date: Thu, 23 May 91 15:01:27 PDT
  8028.  
  8029. I don't know about dvi2ps, except that it should be phased out in favor of
  8030. dvips. The same ".new" situation exists for dvips: I grabbed newer sources
  8031. which handle postscript fonts (virtual fonts). However I never made the .new
  8032. the default bacause it seemed to have trouble printing on the old
  8033. laserwriters. I also have TeX 3.0 in /pcs/tex mostly installed. I never found
  8034. the disk space in /sprite/src/cmds to install it. I'm going to rm -rf it
  8035. soon as I'm using TeX from the sww now. If you want TeX 3.0 on sprite
  8036. grab it now.
  8037.     TvE
  8038.  
  8039.  
  8040. Log-Number: 31091
  8041. Subject: DONT_MIGRATE set on foreign process
  8042. Date: Thu, 23 May 91 18:59:53 PDT
  8043. From: Mike Kupfer <kupfer>
  8044.  
  8045. Mark Sullivan reported that his makes on greed were hanging.  The
  8046. problem seemed to be a job that had migrated to clove.  (Both greed
  8047. and clove are DECstations running 1.091.)  Here's the ps output from
  8048. clove:
  8049.  
  8050.   clove% ps -amM
  8051.   PID   STATE   FLAGS    EVENT RNODE       RPID COMMAND
  8052.   d3916 NEW      9902 ffffffff greed      9185a cc -g -I. -I../include ...
  8053.   f391a RWAIT    2102 ffffffff greed      e1847 sh -ev 
  8054.   f391e SUSP      182 ffffffff greed       184c cc -O -I. -I../include ...
  8055.  
  8056. First, does anyone know why these jobs get suspended?  Is this some
  8057. sort of load balancing by pmake?  This is not the first time I've
  8058. noticed compilations that were suspended for no apparent reason.
  8059.  
  8060. Second, the suspended compilation has DONT_MIGRATE set.  As you may
  8061. recall, I reported a couple weeks ago a problem with a migrated
  8062. simulation job on arson that had DONT_MIGRATE set.  Perhaps there
  8063. should be a paranoia check in DeencapProcState to verify that
  8064. DONT_MIGRATE isn't set?
  8065.  
  8066. I continued the suspended cc, and it and the sh went away, leaving the
  8067. other cc, which was apparently stuck in the middle of migration
  8068. (REMOTE_EXEC_PENDING, MIGRATING, NO_VM).  I tried killing this last
  8069. cc, but that succeeded only in hanging my shell.
  8070.  
  8071. clove-3# ps -amM
  8072. PID   STATE   FLAGS    EVENT RNODE       RPID COMMAND
  8073. d3916 NEW      9902 ffffffff greed      9185a cc -g -I. -I../include ...
  8074.  
  8075. mike
  8076.  
  8077.  
  8078. Log-Number: 31093
  8079. From: mgbaker (Mary Gray Baker)
  8080. Subject: pmake installMACHINE_NAME problem
  8081. Date: Fri, 24 May 91 18:37:43 PDT
  8082.  
  8083. For user commands on the sun3 or sun4, you can install things by saying
  8084.     pmake installsun4 or pmake installsun3 instead of
  8085.     pmake install TM=sun4 or TM=sun3
  8086.  
  8087. But on the ds5000, if I say
  8088.     pmake installds5000 or pmake installds3100, I get the error message
  8089.  
  8090.     --- .BEGIN ---
  8091.     Sorry, the target machine (ds5000) isn't in the list of
  8092.     allowed machines (ds3100 sun3 sun4).
  8093.     exit 1
  8094.     *** Error code 1
  8095.     pmake: 1 error
  8096.  
  8097.  
  8098. Mary
  8099.  
  8100.  
  8101. Log-Number: 31094
  8102. Subject: Re: pmake installMACHINE_NAME problem 
  8103. Date: Fri, 24 May 91 18:40:37 PDT
  8104. From: Mike Kupfer <kupfer>
  8105.  
  8106. You probably have an old Makefile that doesn't handle the
  8107. ds5000->ds3100 mapping correctly.  Do a mkmf and try again.
  8108.  
  8109. mike
  8110.  
  8111.  
  8112. Log-Number: 31096
  8113. Date: Sat, 25 May 91 19:58:24 PDT
  8114. From: tve@ginger.Berkeley.EDU (Thorsten von Eicken)
  8115. Subject: anise seems wedged, it doesn't serve /pcs
  8116.  
  8117.  
  8118.  
  8119.  
  8120. Log-Number: 31097
  8121. From: mendel (Mendel Rosenblum)
  8122. Subject: Re: anise seems wedged, it doesn't serve /pcs 
  8123. Date: Sun, 26 May 91 14:02:19 PDT
  8124.  
  8125. I rebooted anise.  It was running the "new" kernel.  Please only boot kernels
  8126. with the uninstalled lfs module.  Following the directions on anise console if
  8127. you don't have a kernel of your own that you wish to boot.  Thorsten, /pcs is
  8128. currently 92% full.  Things will go more smoothly if you don't try to use so
  8129. much of the disk.
  8130.  
  8131.     Mendel
  8132.  
  8133.  
  8134. Log-Number: 31098
  8135. Date: Sun, 26 May 91 17:27:47 PDT
  8136. From: shirriff (Ken Shirriff)
  8137. Subject: Main_InitVars fails on ds3100
  8138.  
  8139. I found that kernel variables set in Main_InitVars are soon cleared
  8140. by Mach_Init, which zeros the bss.  I added a second call to Main_InitVars,
  8141. so the values will be restored.
  8142.  
  8143. Ken
  8144.  
  8145.  
  8146. Log-Number: 31099
  8147. Date: Mon, 27 May 91 13:08:54 PDT
  8148. From: sullivan (Mark Sullivan)
  8149. Subject: more make trouble
  8150.  
  8151.  
  8152. I'm getting "writeback failed" messages from babylon.  Message
  8153. is as follows:
  8154.  
  8155. Client command, writeback & invalidate msg to Client 24 file "tmp.makefile"
  8156. <8,51762> failed 40012
  8157.  
  8158. Then many:
  8159.  
  8160. Client state killed: 0 refs 0 write 0 exec 
  8161.  
  8162. followed by a message like the one above but for a different file.
  8163.  
  8164. This could be a problem with my kernel (the server for /postdev is
  8165. running my write-protect vm), but I'm using the installed version
  8166. of the file system.
  8167.  
  8168. Mark
  8169.  
  8170. ps. according to df, babylon has about 170MB of free space so it
  8171. shouldn't be failing because the disk is full.
  8172.  
  8173.  
  8174. Log-Number: 31100
  8175. From: mendel (Mendel Rosenblum)
  8176. Subject: Bug fix: deadlock on devDiskStatMutex
  8177. Date: Tue, 28 May 91 13:18:42 PDT
  8178.  
  8179.  
  8180. Larceny just deadlocked on the devDiskStatMutex. The problem is that
  8181. the routine Dev_GetDiskStats() grabs the deviceListMutex to 
  8182. synchronize access to the list of disk devices.  For each device
  8183. it copies the stats into the buffer passed the routine.  This buffer
  8184. points into the user's address space and has had a Vm_MakeAccessible
  8185. done on it in the Sys_StatsStub() routine.   The Vm_MakeAccessible() 
  8186. insures that the buffer is resident in virtual address space but does
  8187. not insure that the pages are resident in physical memory.  If the
  8188. pages aren't resident the routine Dev_GetDiskStats() gets a page 
  8189. fault with the deviceListMutex held.  Since the page fault causes
  8190. the interrupts to be re-enabled, the callback  Dev_GatherDiskStats()
  8191. can be called. When Dev_GatherDiskStats() tries to grab the
  8192. deviceListMutex a deadlock occurs.  Since all other Sys_Stats type
  8193. routines used Vm_CopyOut rather than Vm_MakeAccessible() I will
  8194. fixed this deadlock by changing the disk stats case to use Vm_CopyOut.
  8195.  
  8196.  
  8197.     Mendel
  8198.  
  8199.  
  8200. Log-Number: 31107
  8201. From: mendel (Mendel Rosenblum)
  8202. Subject: allspice crash with level 15 interrupt error
  8203. Date: Wed, 29 May 91 13:08:10 PDT
  8204.  
  8205.  
  8206. Allspice panic'ed this morning with an level 15 interrupt error. The 
  8207. problem was the hardware detected a dirty cache block at a virtual 
  8208. address that did not have a valid PTE.  The error happened on
  8209. context number 2 at address 0x49560. A rlogind created from a
  8210. rlogin of jhh from loiter was the process loaded at context 2
  8211. at the time.  I suspect that it is either a bug in the ds5000
  8212. port or a problem with fscheck.  The address in rlogind had 
  8213. an invalid pmeg loaded and the rlogind was in the middle of
  8214. reading a page fault from disk into the stack segment. The
  8215. page fault was caused by Fs_Select trying to Vm_CopyOut.  I 
  8216. suspect the rlogind was awaken by a wall message.  I was 
  8217. able to take a core dump and continue allspice with out any
  8218. problems.
  8219.  
  8220.     Mendel
  8221.  
  8222.  
  8223. Log-Number: 31108
  8224. Subject: adduser, deleteuser, and RCS
  8225. Date: Wed, 29 May 91 14:21:32 PDT
  8226. From: Mike Kupfer <kupfer>
  8227.  
  8228. The adduser program doesn't recover correctly if the check-out fails. 
  8229. It proceeds as though the check-out had succeeded.
  8230.  
  8231. The deleteuser program doesn't even know about RCS.
  8232.  
  8233. mike
  8234.  
  8235.  
  8236. Log-Number: 31109
  8237. Subject: strangeness when building pmake
  8238. Date: Wed, 29 May 91 15:38:12 PDT
  8239. From: Mike Kupfer <kupfer>
  8240.  
  8241. Suppose I edit pmake/src/parse.c.  If I say "pmake", the
  8242. src/foo.md/linked.o gets rebuilt correctly, but then pmake stops.  If
  8243. I say "pmake" again, the final sun4.md/pmake gets built.  Why doesn't
  8244. it get built with the first invocation of pmake?
  8245.  
  8246. mike
  8247.  
  8248.  
  8249. Log-Number: 31111
  8250. Subject: fclose(NULL) goes into debugger
  8251. Date: Wed, 29 May 91 17:07:59 PDT
  8252. From: Mike Kupfer <kupfer>
  8253.  
  8254.  
  8255. If you call fclose with a NULL stream handle, you end up in the
  8256. debugger.  (There's also a bug report from Fred about this from last
  8257. August.)
  8258.  
  8259. It would be good if we either (1) fix the documentation and comments
  8260. to reflect this or (2) fix fclose to not drop core.  
  8261.  
  8262. The BSD guys are deliberately letting fclose die, so that's one
  8263. argument for not changing the code.  On the other hand, my reading of
  8264. K&R implies that fclose should return EOF.
  8265.  
  8266. mike
  8267.  
  8268.  
  8269. Log-Number: 31113
  8270. Date: Wed, 29 May 91 20:01:19 PDT
  8271. From: dlong (Dean Long)
  8272. Subject: SIGIO, FASYNC, sockets
  8273.  
  8274. asynchronous mode does not seem to be implemented for sockets.
  8275.  
  8276. dl
  8277.  
  8278.  
  8279. Log-Number: 31114
  8280. Date: Thu, 30 May 91 09:13:34 PDT
  8281. From: ouster (John Ousterhout)
  8282. Subject: New gdb.sun4 loses stack information
  8283.  
  8284. I'm having troubles debugging with the new gdb (version 3.5) for
  8285. the Sun4.  When a segmentation fault occurs, the debugger can only
  8286. print out the lowest stack frame (it calls this frame #0 and insists
  8287. there's nothing higher on the stack).  Gdb.old works just fine.
  8288.  
  8289.                     -John-
  8290.  
  8291.  
  8292. Log-Number: 31117
  8293. From: mendel (Mendel Rosenblum)
  8294. Subject: Re: New gdb.sun4 loses stack information 
  8295. Date: Thu, 30 May 91 18:26:00 PDT
  8296.  
  8297.  
  8298. I installed a new gdb for the sun4 that doesn't loses stack frames
  8299. on John's "bad" example.  The problem was that the program was
  8300. built from library routines in files with names ending with ".go"
  8301. rather than ".o".  This caused gdb to think that all routines were
  8302. part of the "startup" frame which it doesn't display. 
  8303.  
  8304.     Mendel
  8305.  
  8306.  
  8307. Log-Number: 31118
  8308. Date: Thu, 30 May 91 20:24:11 PDT
  8309. From: Dean Long <dlong@oak.ucsc.edu>
  8310. Subject: ipServer bug
  8311.  
  8312. There is a bug in ipServer for UDP packets.  If I do a recvfrom(fd,
  8313. buf,len,...) and a packet arrives that is less than len, recvfrom
  8314. blocks, instead of returning the packet.  It turns out that
  8315. the optimized UDP_ReadRequest is not working correctly.  If you
  8316. make it call UDP_SocketRead instead, it works fine.
  8317.  
  8318. dl
  8319.  
  8320.  
  8321. Log-Number: 31120
  8322. Subject: dev/ds3100.md/devTypesInt.h
  8323. Date: Thu, 30 May 91 21:28:06 PDT
  8324. From: Mike Kupfer <kupfer>
  8325.  
  8326.  
  8327. Is this (kernel) file history?  The file itself doesn't exist, but
  8328. there is an RCS file for it.
  8329.  
  8330. (Do we have a convention for deleting or renaming RCS files for
  8331. deleted source files?)
  8332.  
  8333. mike
  8334.  
  8335.  
  8336. Log-Number: 31121
  8337. Date: Fri, 31 May 91 10:47:14 PDT
  8338. From: tve (Thorsten von Eicken)
  8339. Subject: move nfs mounts away from assault?
  8340.  
  8341. Would that make sense, given that assault is being retired?
  8342.     TvE
  8343.  
  8344.  
  8345. Log-Number: 31122
  8346. From: mendel (Mendel Rosenblum)
  8347. Subject: Profiling broken on sun4 - suspect UNIX compatibility mode
  8348. Date: Fri, 31 May 91 10:55:19 PDT
  8349.  
  8350.  
  8351. Sun4 object files linked with the -p or -pg flags seg fault 
  8352. upon startup in monstartup(). It appears that the data segment
  8353. gets invalidated. The following messages appear in the syslog:
  8354.  
  8355. Executing UNIX file in compatibility mode.
  8356. Moving stack pointer for Unix binary.
  8357. MachPageFault: Bus error in user proc d1250, PC = 397c, addr = 40ec0 BR Reg 8080
  8358.  
  8359.  
  8360.     Mendel
  8361.  
  8362.  
  8363. Log-Number: 31123
  8364. Subject: "man -i" is too picky about NAME
  8365. Date: Fri, 31 May 91 17:10:11 PDT
  8366. From: Mike Kupfer <kupfer>
  8367.  
  8368.  
  8369. I ran the man page indexer by hand and noticed a bunch of complaints
  8370. like ``Couldn't find "NAME" section in "cb.man".''  Some of these are
  8371. because the man page is already formatted text, rather than troff
  8372. input.  Okay, fine.
  8373.  
  8374. Some of the complaints seem to result from having a blank at the end
  8375. of ``.SH NAME ''.  This seems unnecessarily picky to me.  It also
  8376. doesn't like ``.SH "NAME"'', which appears in a CMU man page that I
  8377. imported.
  8378.  
  8379. mike
  8380.  
  8381.  
  8382. Log-Number: 31124
  8383. Subject: /swap filesystem error messages at reboot
  8384. Date: Sun, 02 Jun 91 12:20:44 PDT
  8385. From: Mike Kupfer <kupfer>
  8386.  
  8387.  
  8388. When I rebooted allspice, I noticed a bunch of error messages of the
  8389. form
  8390.  
  8391.   file swap/14/243 references non-allocated descriptor 114360.
  8392.     File Deleted.
  8393.   Entry 243 now has nameLength 3 recordLength <some integer>,
  8394.     fileNumber 0.
  8395.  
  8396. Is this normal?
  8397.  
  8398. mike
  8399.  
  8400.  
  8401. Log-Number: 31127
  8402. Subject: deleteuser doesn't always edit aliases file correctly
  8403. Date: Mon, 03 Jun 91 14:04:20 PDT
  8404. From: Mike Kupfer <kupfer>
  8405.  
  8406.  
  8407. The deleteuser command doesn't always leave the aliases file in good
  8408. shape after removing a user.  The basic problem is that there are many
  8409. different ways a name can be on a list (e.g., last name in the list,
  8410. last name on a line, only name on a line, etc.), and deleteuser
  8411. doesn't get them all right.  (Rather than working directly on the text
  8412. representation, it should probably read each alias into a linked list
  8413. or something, remove the user name wherever it appears, then write the
  8414. list back out.  How hard would it be to do this in Tcl?)
  8415.  
  8416. I'm not real enthusiastic about trying to fix this right now, unless
  8417. it would be well-suited for Tcl, in which case I've been looking for a
  8418. Tcl learning exercise anyway.  The other options are:
  8419.  
  8420. (1) leave in the current set of bugs, which crop up if the user name
  8421. is the only one on a line or is the last one in the list.
  8422.  
  8423. (2) bring up an editor, so that the administrator can edit the aliases
  8424. file manually, rather than having deleteuser do it.
  8425.  
  8426. What say you?
  8427.  
  8428. mike
  8429.  
  8430.  
  8431. Log-Number: 31130
  8432. Date: Tue, 4 Jun 91 11:03:04 PDT
  8433. From: shirriff (Ken Shirriff)
  8434. Subject: Pmake can't install sun4 script on ds3100
  8435.  
  8436. If I'm on a ds3100, I can't do pmake TM=sun4 install to install a shell
  8437. script, because it says "you cannot compile for a sun4 on this machine".
  8438. It should only give this message if the install involves compilation.
  8439.  
  8440.  
  8441. Log-Number: 31133
  8442. Subject: SCSI bus error made LFS panic (allspice crash)
  8443. Date: Tue, 04 Jun 91 13:20:02 PDT
  8444. From: Mike Kupfer <kupfer>
  8445.  
  8446. Allspice got a SCSI bus error and LFS panicked at around 1245 today. 
  8447. Mendel took a core dump and we rebooted.
  8448.  
  8449. mike
  8450.  
  8451.  
  8452. Log-Number: 31134
  8453. Subject: hidden machine dependencies
  8454. Date: Tue, 04 Jun 91 13:32:16 PDT
  8455. From: Mike Kupfer <kupfer>
  8456.  
  8457. Do we have a list of things in Sprite that have machine dependencies? 
  8458. I'm thinking about things like:
  8459.  
  8460. - directories that have $MACHINE links
  8461. - scripts (e.g., bootcmds) that have special cases for different
  8462.   machine types
  8463. - system makefiles that have special cases for machine types
  8464.  
  8465. (I just found yet another place--the pmake library--that has ds3100
  8466. special-case stuff and needs to know about ds5000's.)
  8467.  
  8468. mike
  8469.  
  8470.  
  8471. Log-Number: 31135
  8472. Date: Tue, 4 Jun 91 14:46:11 PDT
  8473. From: kupfer@ginger.Berkeley.EDU (Mike Kupfer)
  8474. Subject: allspice crash: Fscache_RemoveFileFromDirtyList
  8475.  
  8476. allspice panicked with "Fscache_RemoveFileFromDirtyList blocks in cache".
  8477. I took a core and will poke around.
  8478.  
  8479. mike
  8480.  
  8481.  
  8482. Log-Number: 31136
  8483. Date: Tue, 4 Jun 91 13:50:20 PDT
  8484. From: kupfer@ginger.Berkeley.EDU (Mike Kupfer)
  8485. Subject: Another SCSI bus error brought down allspice
  8486.  
  8487. Allspice just crashed again.  There was a SCSI bus error, then LFS
  8488. panicked trying to access /swap1.
  8489.  
  8490. mike
  8491.  
  8492.  
  8493. Log-Number: 31138
  8494. Date: Wed, 5 Jun 91 00:21:51 PDT
  8495. From: elm (ethan miller)
  8496. Subject: mail to cory hall sprite
  8497.  
  8498. Is there any good way to have mail sent to Cory Hall sprite forwarded
  8499. back to allspice?  I tried putting an entry into the aliases file
  8500. on king, but that didn't seem to work.  Is there any (easy) way to
  8501. kludge the sendmail.cf file to do this?
  8502.  
  8503. thanks
  8504.  
  8505. ethan
  8506.  
  8507.  
  8508. Log-Number: 31141
  8509. Subject: allspice crashes unlocking unlocked handle
  8510. Date: Wed, 05 Jun 91 17:03:42 PDT
  8511. From: Mike Kupfer <kupfer>
  8512.  
  8513. The allspice problems this afternoon were apparently caused by
  8514. somebody's current working directory being deleted, leading to the
  8515. now-famous "unlocking an unlocked handle" panic.
  8516.  
  8517. These panics are continuable, once you knock the relevant client into
  8518. the debugger.
  8519.  
  8520. mike
  8521.  
  8522.  
  8523. Log-Number: 31142
  8524. Subject: structure of setjmp.h
  8525. Date: Wed, 05 Jun 91 21:35:37 PDT
  8526. From: Mike Kupfer <kupfer>
  8527.  
  8528. /sprite/lib/include/setjmp.h is currently a symbolic link to
  8529. $MACHINE.md/setjmp.h.  It might be better if it were broken into a
  8530. machine-independent part (function prototypes) and machine-dependent
  8531. part (size of jmp buf, etc.).
  8532.  
  8533. mike
  8534.  
  8535.  
  8536. Log-Number: 31144
  8537. From: mendel (Mendel Rosenblum)
  8538. Subject: Re: Murder's tape messed up 
  8539. Date: Thu, 06 Jun 91 10:52:03 PDT
  8540.  
  8541. > Return-Path: shirriff
  8542. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  8543. >     id AA600596; Thu, 6 Jun 91 10:46:09 PDT
  8544. > Date: Thu, 6 Jun 91 10:46:09 PDT
  8545. > From: shirriff (Ken Shirriff)
  8546. > Message-Id: <9106061746.AA600596@sprite.Berkeley.EDU>
  8547. > To: bugs
  8548. > Subject: Murder's tape messed up
  8549. > The tape drive on murder gives me "wait on PHASE_COMMAND failed" and other
  8550. > SCSI errors.  I tried power cycling murder and the tape but that didn't help.
  8551.  
  8552. Try using a different SCSI cable.
  8553.  
  8554.     Mendel
  8555.  
  8556.  
  8557. Log-Number: 31146
  8558. From: mendel (Mendel Rosenblum)
  8559. Subject: bug fix: directory deleting unlocking unlock handle problem
  8560. Date: Fri, 07 Jun 91 13:21:43 PDT
  8561.  
  8562.  
  8563. > The allspice problems this afternoon were apparently caused by
  8564. > somebody's current working directory being deleted, leading to the
  8565. > now-famous "unlocking an unlocked handle" panic.
  8566. > These panics are continuable, once you knock the relevant client into
  8567. > the debugger.
  8568. > mike
  8569.  
  8570. The uninstalled bug fslcl module contains a bug fix for the above problem. 
  8571. This fix avoids the panic with deleting a directory tree that another process
  8572. is "cd" into.  There were two problems:
  8573.  
  8574. 1) The <name, directory> to file handle hash table entry for a directory's ".." was
  8575.    being deleted when the directory was deleted. This entry should really be 
  8576.    deleted when the directory's name is unlinked from its parent.  This only
  8577.    caused problems when the directory was unlinked but not deleted because
  8578.    it was still opened. I changed the code to delete the hash table entry 
  8579.    when the name was unlinked from it's parent.
  8580.  
  8581. 2) The FindComponent routine sometimes unlocked a handle it was passed and sometimes
  8582.    it didn't.  I changed the code so the lock status of the handle could be
  8583.    determined from the return status (SUCCESS or !SUCCESS).  This allows the
  8584.    caller to avoid the unlocking of the unlock handle.
  8585.  
  8586.     Mendel
  8587.  
  8588.  
  8589. Log-Number: 31147
  8590. Date: Fri, 7 Jun 91 15:01:11 PDT
  8591. From: bmiller (Bob Miller)
  8592. Subject: adduser
  8593.  
  8594.  
  8595. I'm trying to add a new user, but running into a little difficulty.
  8596. The message I get is:
  8597.  
  8598. Permission denied.
  8599. Could't fetch entry from thalm
  8600. Make sure your machine is listed in /.rhosts
  8601.  
  8602. I've checked and thalm is operating.  Any ideas as to what the problem
  8603. might be?
  8604.  
  8605.  
  8606. Bob
  8607.  
  8608.  
  8609. Log-Number: 31148
  8610. Date: Sat, 8 Jun 91 14:13:47 PDT
  8611. From: ouster (John Ousterhout)
  8612. Subject: Lust reboot
  8613.  
  8614. Lust was refusing to talk to Tyranny this afternoon.  When I went
  8615. upstairs to take a look it seemed to respond to the console but
  8616. was recovering with Allspice every few seconds.  In retrospect I
  8617. should have called the DDJ, but I assumed no-one else was around
  8618. so I just rebooted it.
  8619.                     -John-
  8620.  
  8621.  
  8622. Log-Number: 31149
  8623. Date: Sun, 9 Jun 91 18:05:51 PDT
  8624. From: dlong@dogwood.ucsc.edu (Dean Long)
  8625. Subject: Possible problem with RPC
  8626.  
  8627. I have the following in /boot/bootcmds:
  8628.  
  8629. rpccmd -negAcksOn -channelNegAcksOn -numNackBufs 2
  8630.  
  8631. and got a few panics saying:
  8632.  
  8633. Rpc_ChanAlloc can't find the free channel.
  8634.  
  8635. from rpc/rpcCall.c
  8636.  
  8637.  
  8638. Log-Number: 31150
  8639. Date: Mon, 10 Jun 91 10:05:18 PDT
  8640. From: schauser (Klaus Erik Schauser)
  8641. Subject: rmail on Sun3
  8642.  
  8643. I used rmail under emacs on paprika (a Sun3). It read the mail from
  8644. /usr/spool/mail/schauser and then went into the debugger. Ken told
  8645. me that I could recover the mail from ~/.newmail.
  8646. Adam Dingle (also 444E) told me that he had lost mail several times
  8647. on hoot (also a Sun3) because rmail crashed.
  8648.  
  8649. Klaus
  8650.  
  8651. *****************************************************
  8652. Here the session:
  8653.  
  8654.  
  8655. You have new mail.
  8656. paprika:/pcs/schauser> emacs &
  8657. [1] 10b11
  8658. paprika:/pcs/schauser>
  8659. [1]  + Segmentation violation     emacs
  8660. paprika:/pcs/schauser> ps
  8661. PID   STATE   TIME COMMAND
  8662. 10b11 DEBUG   0:06 emacs
  8663. 30b4a WAIT    0:04 -csh
  8664. 10b13 EXIT    0:00 /emacs/cmds/movemail /usr/spool/mail/schauser ...
  8665. 10b14 RUN     0:00 ps
  8666. paprika:/pcs/schauser> more /usr/spool/mail/schauser
  8667. paprika:/pcs/schauser> ls -alr /usr/spool/mail/schauser
  8668. -rw-------  1 schauser        0 Jun 10 09:44 /usr/spool/mail/schauser
  8669. paprika:/pcs/schauser> 
  8670.  
  8671.  
  8672. Log-Number: 31153
  8673. Date: Mon, 10 Jun 91 14:12:25 PDT
  8674. From: tve (Thorsten von Eicken)
  8675. Subject: problems with troff_p
  8676.  
  8677. [crackle doc] ditroff -ms weiss
  8678. /sprite/cmds.sun4/troff_p: Can't open /sprite/lib/ditroff/devpsc/i.out; line 20,
  8679.  file weiss
  8680. [In ~tve/doc, this seems to be new?]
  8681.  
  8682.  
  8683. Log-Number: 31157
  8684. Date: Mon, 10 Jun 91 17:55:35 PDT
  8685. From: shirriff (Ken Shirriff)
  8686. Subject: Re: problems with troff_p
  8687.  
  8688. >/sprite/cmds.sun4/troff_p: Can't open /sprite/lib/ditroff/devpsc/i.out; line 20
  8689.  
  8690. The problem is in line 20 you have \fiAlixandre\fR instead of \fIAlixandre\fR.
  8691. Since there is no font "i", troff complains.  (Old troff does the same
  8692. thing, except it doesn't tell you the line number.)
  8693.  
  8694. Ken
  8695.  
  8696.  
  8697. Log-Number: 31154
  8698. From: mendel (Mendel Rosenblum)
  8699. Subject: Allspice hangup - timer interrupts quit
  8700. Date: Mon, 10 Jun 91 14:20:14 PDT
  8701.  
  8702. Allspice hungup just now. It appears to be the problem where the timer
  8703. callback queue is no longer being processed.   I l1-A'ed and continued
  8704. it and the hangup cleared up.
  8705.  
  8706.     Mendel
  8707.  
  8708.  
  8709. Log-Number: 31155
  8710. Date: Mon, 10 Jun 91 14:41:00 PDT
  8711. From: ouster (John Ousterhout)
  8712. Subject: Pmakes hung
  8713.  
  8714. Pmakes don't seem to be working without the "-X" switch:  they
  8715. seem to hang up trying to talk to some machine like terrorism.
  8716. Anybody (e.g. DDJ?) have any ideas how to unwedge them?
  8717.  
  8718.                     -John-
  8719.  
  8720.  
  8721. Log-Number: 31156
  8722. From: mendel (Mendel Rosenblum)
  8723. Subject: Deadlock with migration and recovery
  8724. Date: Mon, 10 Jun 91 15:22:50 PDT
  8725.  
  8726. Terrorism was hanging migrations to it because of the following deadlock.
  8727.  
  8728. Process 0x20 - A pmake from tyranny was being migrated off terrorism. The
  8729. call stack looked like:
  8730.  
  8731. (gdb) where
  8732. #0  0xf600c6d0 in Mach_ContextSwitch ()
  8733. #1  0xf60ad180 in SyncEventWaitInt (...) (...)
  8734. #2  0xf60abe64 in Sync_SlowWait (...) (...)
  8735. #3  0xf60bdfb8 in VmPageFreeInt (...) (...)
  8736. #4  0xf60be018 in VmPageFree (...) (...)
  8737. #5  0xf60bca10 in FreePages (...) (...)
  8738. #6  0xf60bbd0c in Vm_EncapState (...) (...)
  8739. #7  0xf608bc6c in Proc_MigrateTrap (...) (...)
  8740. #8  0xf60ab390 in Sig_Handle (procPtr=(struct Proc_ControlBlock *) 0xf63bb4d0, sigStackPtr=(Sig_Stack *) 0xf63be540, pcPtr=(char **) 0xf805fe3c) (signals.c line 1223)
  8741. #9  0xf600ea7c in MachUserAction (...) (...)
  8742. #10 0xf6010978 in MachReturnFromTrap ()
  8743.  
  8744. The routine Proc_MigrateTrap() locks the process table entry for the current
  8745. process before calling Vm_EncapState().  The routine VmPageFreeInt()
  8746. is waiting for recovery on allspice so it can write out a dirty page
  8747. of the data segment.  This wakeup never happens because 
  8748. the Proc_ServerProc doing the recovery with allspice has a stack that
  8749. looks like:
  8750.  
  8751. #0  0xf600c6d0 in Mach_ContextSwitch ()
  8752. #1  0xf60ad180 in SyncEventWaitInt (event=4131108156, wakeIfSignal=0) (syncLock.c line 655)
  8753. #2  0xf60abe64 in Sync_SlowWait (conditionPtr=(struct Sync_Condition *) 0xf63bb53c, lockPtr=(struct Sync_KernelLock *) 0xf6160bd8, wakeIfSignal=0) (syncLock.c line 298)
  8754. #3  0xf6095bc0 in Proc_Lock (procPtr=(struct Proc_ControlBlock *) 0xf63bb4d0) (procTable.c line 416)
  8755. #4  0xf608f8fc in Proc_WakeupAllProcesses () (procMisc.c line 988)
  8756. #5  0xf605c53c in Fsutil_Reopen (...) (...)
  8757. #6  0xf609aa30 in RecovRebootCallBacks (data=(ClientData) 0xe) (recovery.c line 1153)
  8758. #7  0xf6094e8c in Proc_ServerProc (...) (...)
  8759. #8  0xf60a83e8 in Sched_StartKernProc (...) (...)
  8760.  
  8761. While trying to do a Proc_WakeupAllProcesses(), it hit the locked 
  8762. process table entry from the migrate and hung. This left terrorism
  8763. hung in recovery with allspice.  I rebooted terrorism.
  8764.  
  8765.     Mendel
  8766.  
  8767.  
  8768. Log-Number: 31158
  8769. Date: Tue, 11 Jun 91 16:49:49 -0700
  8770. From: margo@postgres.berkeley.edu (Margo Seltzer)
  8771. Subject: mkmf hanging during makedepend
  8772.  
  8773.  
  8774. This doesn't seem to happen deterministically, but approximately 1 of 5 times,
  8775. mkmf hangs during the makedepend phase.  Killing the process and reissuing
  8776. the mkmf seems to work.
  8777.  
  8778.  
  8779. Log-Number: 31159
  8780. Date: Tue, 11 Jun 91 20:26:30 PDT
  8781. From: sullivan (Mark Sullivan)
  8782. Subject: xgraph bug and fix
  8783.  
  8784.  
  8785. If one axis uses a log scale, the labels on the tick marks on that
  8786. axis are printed out using the wrong printf format.  The version
  8787. of xgraph on our (Ultrix) Decstations, prints the labels out in
  8788. scientific notation format and the version on Sprite prints it in
  8789. normal floating point format.   The result is that logarithmic scale
  8790. axes on Sprite have labels with lots and lots of zeros in them.
  8791.  
  8792.  
  8793. The bug is in xgraph.c in the xgraph source directory.  In a
  8794. routine called "WriteValues", there is a test for the special
  8795. case of log axes.  The routine also tests to make sure that the
  8796. user hasn't defined his or her own print format:
  8797.  
  8798.    if (logFlag) {
  8799.     if (fmt==DEF_FORMAT) {
  8800.         /* print scientific notation */
  8801.     } else {
  8802.         /* print using user-defined format */
  8803.     }
  8804.    }
  8805.  
  8806. For whatever reason, there are several copies of this default format
  8807. string around, so the pointer equality comparison fails.  
  8808.  
  8809. The conditional should be:
  8810.  
  8811.     if (! strcmp(fmt,DEF_FORMAT))
  8812.  
  8813. Mark
  8814.  
  8815.  
  8816.  
  8817. Log-Number: 31161
  8818. Date: Wed, 12 Jun 91 23:50:09 PDT
  8819. From: shirriff@ginger.Berkeley.EDU (Ken Shirriff)
  8820. Subject: Allspice crashed -scsi bus error
  8821.  
  8822. Allspice encountered a scsi bus error and died in Lfs, so I rebooted.
  8823.  
  8824. Ken
  8825.  
  8826.  
  8827. Log-Number: 31139
  8828. Subject: damaged mail queue: fscheck bug?
  8829. Date: Wed, 05 Jun 91 15:25:16 PDT
  8830. From: Mike Kupfer <kupfer>
  8831.  
  8832. Some excerpts from allspice's syslog:
  8833.  
  8834.   <18>Jun  4 15:11:54 sendmail[40e3c]: AA462430: SYSERR: qfAA462430:
  8835. line 1: readqf(AA462430:1): bad line "ble (56) completed client recovery": file already exists
  8836.   <18>Jun  4 15:11:54 sendmail[40e3c]: AA462430: SYSERR: qfAA462430: line 2: readqf(AA462430:2): bad line "FsrmtFileVerify, no handle <1,-79978> client 56"
  8837.   <18>Jun  4 15:11:54 sendmail[40e3c]: AA462430: SYSERR: qfAA462430: line 3: readqf(AA462430:3): bad line "6/4/91 14:18:57 burble (56) initiating recovery"
  8838.   <22>Jun  4 15:11:55 sendmail[40e3c]: AA462430: to=unit, delay=00:00:01, stat=User unknown
  8839.   <22>Jun  4 15:12:00 sendmail[40e3c]: AA462430: to=recv, delay=00:00:06, stat=User unknown
  8840.   <22>Jun  4 15:12:11 sendmail[40e3c]: AA462430: to=einit, delay=00:00:17, stat=User unknown
  8841.   <18>Jun  4 15:12:11 sendmail[40e3c]: AA462430: SYSERR: qfAA462430: line 5: readqf(AA462430:5): bad line "Intel: Spurious interrupt (2)"
  8842.   <18>Jun  4 15:12:11 sendmail[40e3c]: AA462430: SYSERR: qfAA462430:
  8843. line 6: readqf(AA462430:6): bad line "6/4/91 14:19:01 burble (56) completed client recovery"
  8844.   <18>Jun  4 15:12:11 sendmail[40e3c]: AA462430: SYSERR: qfAA462430: line 7: readqf(AA462430:7): bad line "FsrmtFileVerify, no handle <1,-79978> client 56"
  8845.   <18>Jun  4 15:12:11 sendmail[40e3c]: AA462430: SYSERR: qfAA462430: line 8: readqf(AA462430:8): bad line "6/4/91 14:19:01 burble (56) initiating recovery"
  8846.  
  8847. Recall that allspice crashed at around 1245, 1345, and 1440 on the
  8848. 4th.
  8849.  
  8850. How conservative is fscheck?  Are there files that it is claiming to
  8851. fix, when in fact it should stick them in lost+found so that a user
  8852. can look at them?
  8853.  
  8854. While sendmail was bitching, allspice was also going through a
  8855. recovery loop with burble; I don't if the two are related.
  8856.  
  8857. mike
  8858.  
  8859. [if fscheck finds that a block belongs to two files, it leaves it (or
  8860. a copy?) in each file.  Eventually fscheck will go away, so we won't
  8861. fix this.  -mdk, 6/21/91]
  8862.  
  8863.  
  8864. Log-Number: 31140
  8865. Date: Wed, 5 Jun 91 17:01:32 PDT
  8866. From: dlong (Dean Long)
  8867. Subject: Net_ArpPacket in netInet.h
  8868.  
  8869. The field targetProtAddr in the structure Net_ArpPacket will be aligned
  8870. to a 4-byte address on a sun4, which will break things.  Perhaps
  8871. targetProtAddr could be changed to char[4] instead of unsigned int.
  8872.  
  8873. dl
  8874.  
  8875.  
  8876. Log-Number: 31151
  8877. From: mendel (Mendel Rosenblum)
  8878. Subject: Allspice memory usage and crashes during dumps
  8879. Date: Mon, 10 Jun 91 12:31:57 PDT
  8880.  
  8881. Here is jhh's and my guess of why allspice runs out of memory during the
  8882. dumps.  Allspice's file cache contains a maximum of 29778 4k blocks.
  8883. Let's assume that the dump hits a run of files of size <= 4K.  It 
  8884. can bring as many as 29778 into the file cache so it will need 
  8885. 29778 Fsio_FileIOHandle of size 264 bytes each.  The Fsio_FileIOHandle
  8886. also points to the descriptor of the file (128 bytes each) and a 
  8887. name (about 32 bytes).  All these sizes are binned in the memory allocator 
  8888. so they occupy 29778 * (336 + 136 + 32) = 14.3 megabytes. Because these
  8889. are binned the space is kept by the memory allocator for future reuse when
  8890. the objects are freed.   Next assume that the dump hits a run of remote
  8891. files of size <= 4K.  It can bring as many as 29778 remote files into
  8892. the cache that need a structure Fsrmt_FileIOHandle around.  Fsrmt_FileIOHandle
  8893. are binned at size 280 with complete pathname also malloc'ed (avg 40 bytes).
  8894. 29778 * (280 + 4) = 9.1 megabytes.  So after dumping a local and remote
  8895. disk the memory allocator has 9.1 + 14.3 = 23 megabytes in use for binned
  8896. handles.  The current kernel memory limit is 32 bytes for everything.  
  8897.  
  8898.     Mendel
  8899.  
  8900.  
  8901. Log-Number: 31152
  8902. Date: Mon, 10 Jun 91 13:12:10 PDT
  8903. From: ouster (John Ousterhout)
  8904. Subject: Re: Allspice memory usage and crashes during dumps
  8905.  
  8906. Can we just increase the Allspice memory limit a bit, say to 40 Mbytes?
  8907.  
  8908.                     -John-
  8909.  
  8910.  
  8911. Log-Number: 31163
  8912. From: mendel (Mendel Rosenblum)
  8913. Subject: Re: "got a debugger packet from" lacks address 
  8914. Date: Thu, 13 Jun 91 14:05:41 PDT
  8915.  
  8916. > Return-Path: kupfer
  8917. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  8918. >     id AA663877; Thu, 13 Jun 91 12:22:39 PDT
  8919. > Message-Id: <9106131922.AA663877@sprite.Berkeley.EDU>
  8920. > To: bugs
  8921. > Subject: "got a debugger packet from" lacks address
  8922. > Date: Thu, 13 Jun 91 12:22:38 PDT
  8923. > From: Mike Kupfer <kupfer>
  8924. > I noticed that when Ed Lee did a "kmsg -d" to put raid1 into the
  8925. > debugger, the following message appeared on raid1's console:
  8926. >   *** Got a debugger packet from ***
  8927. > Is there supposed to be an ethernet address in that message or
  8928. > something?
  8929. > mike
  8930.  
  8931. The problem is that due to a misunderstanding between the kmsg program and
  8932. the Sprite kernel on the format of the debug packet.  The kmsg program sends
  8933. the packet in native machine format while the kernel assumes the packet is
  8934. in sun3 format. The kmsg program defines a debug packet to be:
  8935.  
  8936.     struct {
  8937.         Net_EtherHdr etherHdr;
  8938.         int nameLen;
  8939.         int name[100];
  8940.     }
  8941.  
  8942. while the kernel assume that a packet looks like a Net_EtherHdr followed by
  8943. a nameLen, followed by the name.  Because the Net_EtherHdr is 14 bytes, a
  8944. structure defined as above will have 2 bytes of padding between the etherHdr
  8945. and nameLen field. This padding occurs on sparc, and mips, but not 68K's.
  8946. So only the sun3 can send properly formatted Sprite debug packets. 
  8947. If this problem is fixed we will hit a second problem in that nameLen is
  8948. assumed by the kernel to be in big endian byte order while the ds3100 
  8949. kmsg sends it in little endian byte order. In terms of doing the "right thing",
  8950. a DBG_CALL is done by the net module regardless of the nameLen or name so
  8951. everything works except the printf message.  I propose that we hold a 
  8952. special sprite meeting to discuss the possible solutions to this problem.
  8953.  
  8954.     Mendel
  8955.  
  8956.  
  8957. Log-Number: 31164
  8958. Subject: couldn't boot allspice off ginger
  8959. Date: Thu, 13 Jun 91 22:43:38 PDT
  8960. From: Mike Kupfer <kupfer>
  8961.  
  8962. Well, my attempt to reboot allspice with my kernel was a dismal
  8963. failure.  It took 15-20 minutes just to download the kernel, and of
  8964. course the &*^(%&^$*&^% root partition wouldn't fscheck cleanly, so it
  8965. had to reboot a second time.  By this time it was 19:15 or 19:30, and
  8966. Mendel and Mary had joined the party.  We eventually gave up and
  8967. booted "new" off the disk.
  8968.  
  8969. (begin bitching)
  8970.  
  8971. Why in Hell do we still have this problem where we can't shut down a
  8972. system cleanly?
  8973.  
  8974. And why in Hell is the root partition so big?  The bigger it is, the
  8975. more likely it will fail the disk check, hence the more likely we'll
  8976. have to reboot.
  8977.  
  8978. (end bitching)
  8979.  
  8980. I went through the 1990 bug list and found a couple instances of
  8981. similar problems, where downloading a kernel would go very slowly.
  8982. One suggestion from the bug list is that the clients are somehow
  8983. polluting the net trying to talk to allspice.  I tried ftp'ing a copy
  8984. of the kernel from ginger to shallot and it went at normal speed, so
  8985. if there is some global problem, why would it only affect the
  8986. downloading of the kernel?
  8987.  
  8988. I am suspicious that it might be a problem with the network driver in
  8989. allspice's PROM.  Etherfind shows a pattern very similar to that
  8990. exhibited when murder takes forever to boot: the client asks for a
  8991. packet, and the server immediately replies.  Then there is a
  8992. two-second pause before the client sends anything else to the server.
  8993. Unfortunately, etherfind doesn't conveniently give sequence numbers
  8994. for tftp connections, so I don't know for sure whether the second
  8995. request is for the block that the server just sent it.
  8996.  
  8997. Anyway, the reason that we're going through all this fuss and bother
  8998. in the first place is because of the problems we had last year where
  8999. we couldn't boot anything except "new" off the disk.  Has this been
  9000. fixed?
  9001.  
  9002. mike
  9003.  
  9004.  
  9005. Log-Number: 31165
  9006. From: mendel (Mendel Rosenblum)
  9007. Subject: Re: couldn't boot allspice off ginger 
  9008. Date: Fri, 14 Jun 91 09:00:42 PDT
  9009.  
  9010.  
  9011. > (begin bitching)
  9012. > Why in Hell do we still have this problem where we can't shut down a
  9013. > system cleanly?
  9014.  
  9015. I suspect the problem is that we sync the disk and then kill off all
  9016. processes.  Killing processes can causes files to be deleted from
  9017. /swap/14 (allspice's swap area) which is on /.   This explains the
  9018. directory /swap/14/{number} pointing to a unallocated inode.
  9019.  
  9020. > And why in Hell is the root partition so big?  The bigger it is, the
  9021. > more likely it will fail the disk check, hence the more likely we'll
  9022. > have to reboot.
  9023.  
  9024. Too bad you weren't around when I tried to argue against this and lost.
  9025.  
  9026. > (end bitching)
  9027. > I went through the 1990 bug list and found a couple instances of
  9028. > similar problems, where downloading a kernel would go very slowly.
  9029. > One suggestion from the bug list is that the clients are somehow
  9030. > polluting the net trying to talk to allspice.  I tried ftp'ing a copy
  9031. > of the kernel from ginger to shallot and it went at normal speed, so
  9032. > if there is some global problem, why would it only affect the
  9033. > downloading of the kernel?
  9034.  
  9035. Did you use ftp or tftp?  The PROM and netBoot use tftp to down the
  9036. kernel.
  9037.  
  9038. > I am suspicious that it might be a problem with the network driver in
  9039. > allspice's PROM.  Etherfind shows a pattern very similar to that
  9040. > exhibited when murder takes forever to boot: the client asks for a
  9041. > packet, and the server immediately replies.  Then there is a
  9042. > two-second pause before the client sends anything else to the server.
  9043. > Unfortunately, etherfind doesn't conveniently give sequence numbers
  9044. > for tftp connections, so I don't know for sure whether the second
  9045. > request is for the block that the server just sent it.
  9046.  
  9047. It seems more likely to be a problem in netBoot.  The PROM network driver
  9048. is only called to send and receive packets and allspice and murder have
  9049. different network inferface hardware. The piece in common here is the
  9050. netBoot program.
  9051.  
  9052. > Anyway, the reason that we're going through all this fuss and bother
  9053. > in the first place is because of the problems we had last year where
  9054. > we couldn't boot anything except "new" off the disk.  Has this been
  9055. > fixed?
  9056.  
  9057. I don't remember anyone fixing this.  Hook up a disk to anise and you
  9058. have a good test setup for looking at this problem.  
  9059.  
  9060.     Mendel
  9061.  
  9062.  
  9063. Log-Number: 31172
  9064. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9065. Date: Sun, 16 Jun 1991 20:00:05 PDT
  9066. Subject: Re: couldn't boot allspice off ginger
  9067.  
  9068. > Why in Hell do we still have this problem where we can't shut down a
  9069. > system cleanly?
  9070.  
  9071. Because no one has the time to fix it.  Same is true for any Sprite bugs
  9072. that have a known fix, but still exist.
  9073.  
  9074. > And why in Hell is the root partition so big?  The bigger it is, the
  9075. > more likely it will fail the disk check, hence the more likely we'll
  9076. > have to reboot.
  9077.  
  9078. There is a trade-off between having a big and small root.  A big root makes
  9079. it easier to configure the system, ie its easier to make sure you have 
  9080. all binaries, data files, devices, etc. available during the boot.
  9081. The root is not rechecked, so the only delay is due to the kernel download.
  9082. Mary's work on fast reboot will eventually eliminate this delay.
  9083.  
  9084. > I am suspicious that it might be a problem with the network driver in
  9085. > allspice's PROM.  Etherfind shows a pattern very similar to that
  9086. > exhibited when murder takes forever to boot: the client asks for a
  9087. > packet, and the server immediately replies.  Then there is a
  9088. > two-second pause before the client sends anything else to the server.
  9089. > Unfortunately, etherfind doesn't conveniently give sequence numbers
  9090. > for tftp connections, so I don't know for sure whether the second
  9091. > request is for the block that the server just sent it.
  9092.  
  9093. It wouldn't surprise me if there is a problem with the prom. Or netBoot.
  9094.  
  9095. > Anyway, the reason that we're going through all this fuss and bother
  9096. > in the first place is because of the problems we had last year where
  9097. > we couldn't boot anything except "new" off the disk.  Has this been
  9098. > fixed?
  9099.  
  9100. See my first response.  
  9101.  
  9102.  
  9103. It is no secret that Sprite has a lot of bugs.  It is also no secret
  9104. that we only have a few people to fix them.  These same people are
  9105. supposed to be making progress towards getting out of here. We have to strike
  9106. a balance, and it probably means that not all bugs will be fixed.
  9107. I think all of the problems you mentioned were previously discussed in 
  9108. a Sprite meeting, and we decided not to take action on them. 
  9109.  
  9110. John
  9111.  
  9112.  
  9113. Log-Number: 31167
  9114. Date: Fri, 14 Jun 91 17:13:34 PDT
  9115. From: ouster (John Ousterhout)
  9116. Subject: man "NAMES " bug fixed.
  9117.  
  9118. I've fixed the bug Mike Kupfer reported in log-number 31123, about
  9119. man barfing unnecessarily when the NAMES section header in a manual
  9120. entry has an extra trailing space.
  9121.                     -John-
  9122.  
  9123.  
  9124. Log-Number: 31168
  9125. Date: Fri, 14 Jun 91 18:28:03 PDT
  9126. From: shirriff (Ken Shirriff)
  9127. Subject: Mysterious exabyte errors
  9128.  
  9129. When I do the weekly dumps, I often get the following errors:
  9130.  
  9131. |Warning: Exabyte 8200 at SCSI3#2#2 Target 5 LUN 0 error: hardware error - info bytes 0x0 0x0 0x1 0x52
  9132. |Warning: Exabyte Data Flow Underrun
  9133. |Warning: Exabyte Formatter error, catastrophic failure!
  9134. |Warning: Exabyte 8200 at SCSI3#2#2 Target 5 LUN 0 error: media error - info bytes 0x0 0x0 0x0 0xaa
  9135. |Exabyte File Mark Error
  9136.  
  9137. or 
  9138. |Warning: Exabyte 8200 at SCSI3#2#2 Target 5 LUN 0 error: media error - info bytes 0x0 0x0 0x0 0xa3
  9139. |Warning: Exabyte maximum write retries attempted
  9140. |Warning: Exabyte 8200 at SCSI3#2#2 Target 5 LUN 0 error: media error - info bytes 0x0 0x0 0x0 0xa2
  9141. |Exabyte File Mark Error
  9142. |Warning: Exabyte 8200 at SCSI3#2#2 Target 5 LUN 0 error: hardware error - info bytes 0x0 0x0 0x1 0x52
  9143. |Warning: Exabyte Data Flow Underrun
  9144. |Warning: Exabyte Formatter error, catastrophic failure!
  9145. |Warning: Exabyte 8200 at SCSI3#2#2 Target 5 LUN 0 error: media error - info bytes 0x0 0x0 0x0 0xaa
  9146. |Exabyte File Mark Error
  9147.  
  9148. Then the tar fails with "can't write to -: I/O error"
  9149.  
  9150. Any idea what this means?  If I try restarting the dumps on the same tape,
  9151. they work the second time.
  9152.  
  9153. Ken
  9154.  
  9155.  
  9156. Log-Number: 31171
  9157. Date: Sun, 16 Jun 91 14:56:47 PDT
  9158. From: shirriff (Ken Shirriff)
  9159. Subject: exb1 doesn't work
  9160.  
  9161. I'm still getting media errors on the exabyte drive attached to allspice
  9162. after running the cleaning tape through the drive.  As there are now no
  9163. working drives, I am unable to complete the dumps.
  9164.  
  9165. Ken
  9166.  
  9167.  
  9168. Log-Number: 31173
  9169. Date: Thu, 20 Jun 91 10:04:39 PDT
  9170. From: ouster (John Ousterhout)
  9171. Subject: Allspice running out of memory
  9172.  
  9173. I just had an idea about the problem we've been seeing where Allspice
  9174. runs out of memory because of high-water marks with local and remote
  9175. handles.  As I remember, the problem is that the dumper reads a large
  9176. number of remote files, building up a huge list of remote handles, then
  9177. it reads a large number of local files, building up a huge list of
  9178. local handles.  Since local and remote handles are different sizes,
  9179. two different and non-interchangeable pools of memory get allocated,
  9180. thereby wasting memory.
  9181.  
  9182. How about solving this problem by always using a single size for all
  9183. handles, local or remote?  There's not much difference in size anyway,
  9184. is there?  For example, FS could define a union that contains both
  9185. local and remote handles and use the size of the union when allocating
  9186. space for either handle type.  This would make it possible for remote
  9187. handle space to be reallocated for local handles, and vice versa.
  9188.  
  9189.                     -John-
  9190.  
  9191.  
  9192. Log-Number: 31174
  9193. Date: Thu, 20 Jun 91 10:50:19 PDT
  9194. From: mendel (Mendel Rosenblum)
  9195. Subject: Re: Allspice running out of memory
  9196.  
  9197. >How about solving this problem by always using a single size for all
  9198. >handles, local or remote?  There's not much difference in size anyway,
  9199. >is there?  For example, FS could define a union that contains both
  9200. >local and remote handles and use the size of the union when allocating
  9201. >space for either handle type.  This would make it possible for remote
  9202. >handle space to be reallocated for local handles, and vice versa.
  9203.  
  9204. This suggested fix here would solve the problem on allspice. The 
  9205. memory allocator bining is defeating the code that reclaims space from
  9206. file handles.  Using a single size would fix this. The disadvantage 
  9207. of this patch is that it will increase the kernel memory usage on
  9208. the client machines. The client machines have zero local handles but
  9209. with this patch all remote handles will occupy 336 rather than
  9210. 264 bytes. This will increase the size of the handle table on 
  9211. the clients by 27%. Since cleints have around a max of 1000 handles
  9212. this will mean clients kernels will take 72K more memory. At $100/MB
  9213. this cost $7 more.  There are around 30 sprite machines so it is
  9214. a 30 * $7 = $210 problem.  Assume that an RA is paid around $9 an
  9215. hour. This means that it would make economic sense to fix this
  9216. problem if it would take less than $210/$9 = 23 hours.  This
  9217. time limit changes if a faculty member does the fix. The faculty
  9218. member would charge his or her consulting rate of $250 an hour.
  9219. In this case, fixing the problem would be worthwhile if it
  9220. took less than 50 minutes.  Since I spent 5 minutes writing this 
  9221. email, we have already spent (5/60) * $9 = 75 cents on this problem.
  9222.  
  9223.     Mendel
  9224.  
  9225.  
  9226.  
  9227. Log-Number: 31177
  9228. Subject: sun4 longjmp clobbers local variable
  9229. Date: Sat, 22 Jun 91 23:28:40 PDT
  9230. From: Mike Kupfer <kupfer>
  9231.  
  9232. The enclosed program demonstrates a bug with gcc 1.37.1 on the sun4.
  9233. The longjmp (triggered by the 'l' input) restores "firstTime" to an
  9234. old value.  (Before anyone says "but it's allowed to work that way",
  9235. please note that the setjmp happens every time through the loop.)
  9236. This problem doesn't appear on murder (even though gcc 1.37.1 is also
  9237. installed on sun3's) or okeeffe (a CCI Tahoe with gcc 1.39).  It is
  9238. reproducible on shallot (a sun4 with gcc 1.37.1.R).  You have to use
  9239. -O to see the bug.
  9240.  
  9241. I don't have access to any sun4's running a more recent gcc, so I
  9242. don't know if this is a known gcc bug.  I'll submit a bug report to
  9243. gnu.gcc.bug.
  9244.  
  9245. mike
  9246. --
  9247. /* 
  9248.  * Test program for automatic variables & setjmp.  To show the bug, 
  9249.  * run it and give it as input 'a', 'b', and then 'l'.  After the 'l' 
  9250.  * you'll get "first time", even though you shouldn't.
  9251.  */
  9252.  
  9253. #include <stdio.h>
  9254. #include <setjmp.h>
  9255.  
  9256. jmp_buf env;
  9257.  
  9258. main()
  9259. {
  9260.     int firstTime = 1;
  9261.     int ch;
  9262.  
  9263.     for (;;) {
  9264.     (void)setjmp(env);
  9265.     if (firstTime) {
  9266.         printf("first time\n");
  9267.     }
  9268.     printf("? ");
  9269.     ch = getchar();
  9270.     if (ch == 'l') {
  9271.         longjmp(env, 1);
  9272.     } 
  9273.     if (ch == EOF) {
  9274.         exit(0);
  9275.     } else {
  9276.         printf("%c\n", ch);
  9277.     }
  9278.     firstTime = 0;
  9279.     }
  9280. }
  9281.  
  9282.  
  9283. Log-Number: 31178
  9284. Subject: Re: sun4 longjmp clobbers local variable 
  9285. Date: Sun, 23 Jun 91 22:15:57 PDT
  9286. From: Mike Kupfer <kupfer>
  9287.  
  9288. Thorsten pointed out that the Software Warehouse has gcc 1.40.  I
  9289. tried it out on shallot and the bug has apparently been fixed.
  9290.  
  9291. mike
  9292.  
  9293.  
  9294. Log-Number: 31179
  9295. Subject: allspice crash: Fscache_RemoveFileFromDirtyList
  9296. Date: Mon, 24 Jun 91 13:39:28 PDT
  9297. From: Mike Kupfer <kupfer>
  9298.  
  9299.  
  9300. Allspice panicked with the "Fscache_RemoveFileFromDirtyList" bug. 
  9301. Mendel is already looking into this one and said we didn't need to
  9302. take a core dump, so we just rebooted.
  9303.  
  9304. mike
  9305.  
  9306.  
  9307. Log-Number: 31180
  9308. Subject: allspice boot problems: phase mismatch
  9309. Date: Mon, 24 Jun 91 13:43:26 PDT
  9310. From: Mike Kupfer <kupfer>
  9311.  
  9312.  
  9313. We were unable to boot the "kupfer" kernel off of allspice's disk.  It
  9314. would start loading the kernel and then the disk access light would go
  9315. on and stay on.  Eventually something like "getbyte error: phase
  9316. mismatch" and "status = FFFFFFFF" would appear, followed by repeating
  9317. messages that the SCSI bus was hung.  
  9318.  
  9319. Resetting allspice didn't help, so we booted the "new" kernel.
  9320.  
  9321. mike
  9322.  
  9323.  
  9324. Log-Number: 31182
  9325. From: mendel (Mendel Rosenblum)
  9326. Subject: Allspice rebooted Tuesday morning
  9327. Date: Wed, 26 Jun 91 09:15:50 PDT
  9328.  
  9329. When I came in Tuesday morning allspice was down. The console had Phil
  9330. Loarie on it running ethernet diagnostics from the PROM.  From what
  9331. Phil said, Sprite may or may not have been working at the time he
  9332. pushed the WatchDog Reset button. 
  9333.  
  9334.     Mendel
  9335.  
  9336.  
  9337. Log-Number: 31184
  9338. Date: Thu, 27 Jun 91 14:38:16 PDT
  9339. From: shirriff (Ken Shirriff)
  9340. Subject: Allspice crash
  9341.  
  9342. Allspice crashed with the following:
  9343. cleaned /swap1
  9344. Fs_PageCopy: copy failed 50002
  9345. Fatal error: MachHandleTrap: error occured in a user process
  9346. procptr=f6d28078, pc=f604e4b8
  9347. entering debugger at f60c2fe4
  9348.  
  9349.  
  9350. Log-Number: 31186
  9351. From: mgbaker (Mary Gray Baker)
  9352. Subject: man strcpy broken
  9353. Date: Thu, 27 Jun 91 22:33:41 PDT
  9354.  
  9355. Doing a "man strcpy" gets the following:
  9356.  
  9357. End-of-file in name line for "send".
  9358. No manual entry for "strcpy".
  9359.  
  9360.  
  9361. Attempting to re-install the manual page causes a ranlib on the sun4
  9362. C library -- always a heart-warming, confidence-building occurrence.
  9363.  
  9364. Maybe I'll look at this before I pass out.  Maybe not.
  9365.  
  9366.  
  9367. Mary
  9368.  
  9369.  
  9370. Log-Number: 31187
  9371. From: mendel (Mendel Rosenblum)
  9372. Subject: Re: man strcpy broken 
  9373. Date: Fri, 28 Jun 91 10:25:13 PDT
  9374.  
  9375. > Return-Path: mgbaker
  9376. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  9377. >     id AA275774; Thu, 27 Jun 91 22:33:44 PDT
  9378. > From: mgbaker (Mary Gray Baker)
  9379. > Message-Id: <9106280533.AA275774@sprite.Berkeley.EDU>
  9380. > To: bugs
  9381. > Subject: man strcpy broken
  9382. > Date: Thu, 27 Jun 91 22:33:41 PDT
  9383. > Doing a "man strcpy" gets the following:
  9384. > End-of-file in name line for "send".
  9385. > No manual entry for "strcpy".
  9386.  
  9387. I noticed this a few days ago and tracked it down to a truncated man index
  9388. (/sprite/lib/man/lib/c/index).  I assumed that this occurred because
  9389. allspice had crashed the night before about the time cron should have
  9390. run the reindex of the man pages.  I didn't touch anything because I
  9391. thought that cron would fix things up the next night. I guess it didn't.
  9392. I just ran the reindex program by hand and everything worked correctly.
  9393.  
  9394.     Mendel 
  9395.  
  9396.  
  9397. Log-Number: 31188
  9398. From: mendel (Mendel Rosenblum)
  9399. Subject: Kernel built from uninstalled mods doesn't enter debugger
  9400. Date: Fri, 28 Jun 91 11:04:27 PDT
  9401.  
  9402. A kernel built from the uninstalled mods doesn't enter the debugger
  9403. correctly on the sun4c.  It's pretty neat what happens.  When the
  9404. panic happens the kernel prints the message and switches to the
  9405. debugger stack. From there it tries to sync the disk. This
  9406. causes a context switch to happen so the process trying to
  9407. enter the debugger gets descheduled.  Everything else keeps
  9408. running.  You get a "Fatal Error" message and everything keeps
  9409. working. Your can move the mouse and type in windows.  As long
  9410. as the panic() didn't occur with some important lock held you
  9411. might never know it happened.  We should start charging our
  9412. users more because we now have a fault-tolerate kernel. No 
  9413. more DDJ.
  9414.  
  9415.     Mendel
  9416.  
  9417.  
  9418. Log-Number: 31189
  9419. From: mgbaker (Mary Gray Baker)
  9420. Subject: Re: Kernel built from uninstalled mods doesn't enter debugger 
  9421. Date: Fri, 28 Jun 91 12:03:21 PDT
  9422.  
  9423. Yup.  This is a problem.  I've just removed the offending code from the sun4
  9424. dbg module.  However, this is the same code that exists already in all the
  9425. other machine types.  This would seem to explain why decstations sometimes
  9426. seem to "pop out" of the debugger.
  9427.  
  9428. It seems clear that we need to invest more effort in this shutdown/panic
  9429. business if we want it to work.
  9430.  
  9431. I will remove the offending code from the other machine types too.  This
  9432. means they'll stay in the debugger, but they won't try to sync their disks.
  9433.  
  9434.  
  9435.  
  9436.  
  9437. Mary
  9438.  
  9439.  
  9440. Log-Number: 31190
  9441. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9442. Date: Fri, 28 Jun 1991 17:11:06 PDT
  9443. Subject: exabyte errors explained
  9444.  
  9445.  
  9446. Some of the problems with the exabytes are due to a bug in dump. If you
  9447. specify the "-r" or "-s" options to reinitailize the tape, dump will
  9448. write out an invalid dump tape label.  If you try to access the tape,
  9449. perhaps to restore or perhaps to do another dump, you get:
  9450. Dump: The tape does not have a correct label: invalid argument
  9451.  
  9452.  
  9453. I'm busy rewriting dump to work on the exb8500 and I'll fix this bug.
  9454.  
  9455. John
  9456.  
  9457.  
  9458. Log-Number: 31191
  9459. From: mendel (Mendel Rosenblum)
  9460. Subject: Problem with SparcStation and sun4 running out of PMEGs
  9461. Date: Sat, 29 Jun 91 14:54:43 PDT
  9462.  
  9463. While doing some stress testing of some changes I made to LFS I ran into 
  9464. the following problem with the Sprite kernel memory management on the
  9465. sparcStation1 and sun4.
  9466.  
  9467. Remember that the SparcStation MMU has hardware page mapping tables 
  9468. called PMEGs that are used to map virtual addresses into physical
  9469. addresses.  The way the Sprite kernel is coded it must wire down the
  9470. PMEGs used to map the Sprite kernel.  Awhile back I changed the code
  9471. not to wire down the PMEGs used to map the kernel's file cache. 
  9472. (This was limiting the size of the file caches on the sun4).  On
  9473. the SparcStation1, there are 128 PMEGs available.  Each PMEG map
  9474. 64 4K pages (256 Kbytes of mapping). 5 of them are allocated to the 
  9475. PROM so are unavailable for Sprite.  This leaves 123 PMEGs or around 30
  9476. megabytes of mapping available for Sprite, the file cache, and all
  9477. user level processes.  The size of the Sprite kernel code and
  9478. static data is is around 1428.8 kilobytes which uses 6 PMEGs
  9479. to map.  The malloc()'ed data size of the Sprite kernel is around
  9480. 5.3 megabytes which requires around 23 PMEGs wired.  Next
  9481. comes the kernel stacks. There are 3 megabytes allowed for
  9482. kernel stacks. These PMEGs only need to be wired if a process
  9483. has allowed a stack on the PMEG.  Since there is no code trying to
  9484. allocated kernel stacks on the same PMEGs, it tends to allocate
  9485. stacks on most of the PMEGs. This accounts for around 10 wired PMEGs.
  9486. Another 5 PMEGS are wired for devices and DMA mapping.  Together this
  9487. accounts for close to 50/128 (40%) of the PMEGs.   The rest (78 PMEGs)
  9488. are available to user programs and the file cache.  
  9489.  
  9490. The file cache on a SparcStation with 28 megabytes of memory is allocated
  9491. 21 megabytes of virtual addresses. To totally map this would take 87
  9492. PMEGs which is more that we have.  Fortunately, the file cache only
  9493. wires a PMEG when a cache block is being accessed, read, or, written.
  9494. This is typically only a few blocks at a time.  The problem occurs
  9495. during a LFS segment write.  Assume a segment size 512*1024. This means that
  9496. the write back code may try to write 128 4096-byte blocks at once. If 
  9497. the cache blocks are spread out in the cache, it could cause the entire 
  9498. file cache to become wired.  This happened on larceny. The segment being 
  9499. written contained 132 blocks which happened to reside on 78 different
  9500. PMEGs.  Larceny panic'ed because it ran out of PMEGs.
  9501.  
  9502. Allspice is in slightly better shape because it has 512 pmegs.  With
  9503. a kernel image of 32 megabytes wiring 128 pmegs, it has 380 some PMEGs
  9504. for the file cache and user processes.   Still, if someone were to
  9505. write 1024 files of size less than 512 bytes and these files that happen 
  9506. to reside on over 380 different PMEGs and LFS tried to write them all
  9507. into the same segment; the same sort of thing that crashed larceny
  9508. will happen on allspice.
  9509.  
  9510.  
  9511.     Mendel
  9512.  
  9513.  
  9514. Log-Number: 31192
  9515. Date: Sun, 30 Jun 91 14:21:27 PDT
  9516. From: shirriff (Ken Shirriff)
  9517. Subject: Allspice hung for no apparent reason
  9518.  
  9519. When I got in today, allspice was inert, with a bunch of messages
  9520. about "reset recv unit".  I did an L1-a and continue.  It then did
  9521. a bunch of disk activity and recovery and came back to life.
  9522.  
  9523. Ken
  9524.  
  9525.  
  9526. Log-Number: 31193
  9527. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9528. Date: Sun, 30 Jun 1991 21:36:01 PDT
  9529. Subject: repeated recovery w/ cory clients
  9530.  
  9531.  
  9532. The machines over in Cory go through recovery with allspice every few minutes.
  9533. I assume it is because the gateway is loaded and the RPC times out.  Perhaps
  9534. we could make the timeout longer for clients that are using RPC on top 
  9535. of IP?
  9536.  
  9537. John
  9538.  
  9539.  
  9540. Log-Number: 31194
  9541. From: mendel (Mendel Rosenblum)
  9542. Subject: Re: repeated recovery w/ cory clients 
  9543. Date: Mon, 01 Jul 91 11:32:34 PDT
  9544.  
  9545. > Return-Path: jhh
  9546. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  9547. >     id AA938806; Sun, 30 Jun 91 21:36:05 PDT
  9548. > Message-Id: <9107010436.AA938806@sprite.Berkeley.EDU>
  9549. > From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9550. > Date: Sun, 30 Jun 1991 21:36:01 PDT
  9551. > X-Mailer: Mail User's Shell (7.1.1 5/02/90)
  9552. > To: bugs
  9553. > Subject: repeated recovery w/ cory clients
  9554. > The machines over in Cory go through recovery with allspice every few minutes.
  9555. > I assume it is because the gateway is loaded and the RPC times out.  Perhaps
  9556. > we could make the timeout longer for clients that are using RPC on top 
  9557. > of IP?
  9558. > John
  9559.  
  9560. I suspect this is a bug in the recovery system rather than problems with RPC or
  9561. the gateway. The /etc/crossmount file on king contains obsolete entries such
  9562. as 
  9563.  
  9564. /boot/cmds/prefix -a /user2 -s assault
  9565. /boot/cmds/prefix -a /sprite/src -s allspice
  9566.  
  9567. This hardwires the serverID for this prefixs to be assault and allspice. The 
  9568. problem is that this file system don't exist of the specified machines so 
  9569. anything that tries to touch these prefixs cause RPCs that timeout. This
  9570. invokes the recovery but the recovery system does nothing to stop the
  9571. timeouts.  The easiest patch for this would be to correct the /etc/crossmount
  9572. file in cory.  This appears to have been fixed in the new kernel.
  9573.  
  9574.  
  9575.     Mendel
  9576.  
  9577.  
  9578. Log-Number: 31195
  9579. Date: Mon, 1 Jul 91 15:15:07 PDT
  9580. From: Dean Long <dlong@cedar.ucsc.edu>
  9581. Subject: console and serial problems
  9582.  
  9583. The RawProc's that handle console and serial output don't seem to be
  9584. working right.  For example, "echo 12345 > /dev/ttya" only outputs
  9585. the first two characters ("12").  I think the problem is that there
  9586. are places in the code that cause characters to be output only if
  9587. the buffer has *just* become non-empty.  If the buffer is already
  9588. non-empty and new characters are added, nothing happens.
  9589.  
  9590. dl
  9591.  
  9592.  
  9593. Log-Number: 31196
  9594. Date: Mon, 1 Jul 91 15:24:30 PDT
  9595. From: dlong@dogwood.ucsc.edu (Dean Long)
  9596. Subject: faster console output
  9597.  
  9598. The following diff to sun4c.d/devConsole.c will speed up console output
  9599. by writing more than one character per PROM call.
  9600. Calling the PROM function directly seems to work without
  9601. disabling/enabling interrupts like Mach_MonPutChar does.
  9602.  
  9603. dl
  9604.  
  9605. *** /tmp/,RCSt1524570    Mon Jul  1 15:16:13 1991
  9606. --- devConsole.c    Mon Jul  1 14:51:12 1991
  9607. ***************
  9608. *** 154,165 ****
  9609.       char *outBuffer;        /* Output buffer. */
  9610.   {
  9611.       register DevZ8530 *zPtr = ptr; /* Information about keyboard device. */
  9612. !     int c;
  9613.   
  9614.       if (operation != TD_RAW_OUTPUT_READY) {
  9615.       return 0;
  9616.       }
  9617. !     while (TRUE) {
  9618.   
  9619.       /*
  9620.        * Note:  must call DevTtyOutputChar directly, rather than calling
  9621. --- 154,166 ----
  9622.       char *outBuffer;        /* Output buffer. */
  9623.   {
  9624.       register DevZ8530 *zPtr = ptr; /* Information about keyboard device. */
  9625. !     char buf[TTY_OUT_BUF_SIZE];
  9626. !     int c, i;
  9627.   
  9628.       if (operation != TD_RAW_OUTPUT_READY) {
  9629.       return 0;
  9630.       }
  9631. !     for (i = 0; i < sizeof buf; ++i) {
  9632.   
  9633.       /*
  9634.        * Note:  must call DevTtyOutputChar directly, rather than calling
  9635. ***************
  9636. *** 172,180 ****
  9637.       if (c == -1) {
  9638.           break;
  9639.       }
  9640. !     while (Mach_MonMayPut(c & 0x7f) == -1) {
  9641. !         /* Empty loop;  just try again. */
  9642. !     }
  9643.       }
  9644.       return 0;
  9645.   }
  9646. --- 173,182 ----
  9647.       if (c == -1) {
  9648.           break;
  9649.       }
  9650. !     buf[i] = c & 0x7f;
  9651. !     }
  9652. !     if (i > 0) {
  9653. !     (*romVectorPtr->fbWriteStr)(buf, i);
  9654.       }
  9655.       return 0;
  9656.   }
  9657.  
  9658.  
  9659. Log-Number: 31197
  9660. From: mgbaker (Mary Gray Baker)
  9661. Subject: debugging decstations
  9662. Date: Mon, 01 Jul 91 18:59:48 PDT
  9663.  
  9664. When using kdbx, if I put a breakpoint in FsrmtFilePageRead, the machine
  9665. stops there correctly, but when I try to print out the stack trace, it prints
  9666. out the first few frames and then hangs.  It's printing out "T1;" repeatedly
  9667. on the console of the machine being debugged.  How do I get this stack
  9668. trace?
  9669.  
  9670. Mary
  9671.  
  9672.  
  9673. Log-Number: 31198
  9674. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9675. Date: Mon, 1 Jul 1991 22:01:12 PDT
  9676. Subject: decstation debugging
  9677.  
  9678.  
  9679. I would guess that you hit a bug in dbx.  The "TI" messages indicate that
  9680. the kernel is trying to respond to the debugger, but the debugger isn't
  9681. listening.  Basically, the kernel and the debugger are out of sync.  I
  9682. have a personal version of kmsg that whacks the kernel out of the TI loop,
  9683. but I haven't installed it.  I did that to loiter, and found that the
  9684. the stack was messed up.  I'll keep my eye on the debugger situation.
  9685.  
  9686. John
  9687.  
  9688.  
  9689. Log-Number: 31200
  9690. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9691. Date: Mon, 1 Jul 1991 22:47:39 PDT
  9692. Subject: more on debugging decstations
  9693.  
  9694.  
  9695. I think the decstations aren't strict enough about what constitutes a 
  9696. valid address when you're in the debugger. Sometimes when back-tracing
  9697. the stack the machine will suffer a load miss in Dbg_Main trying
  9698. to load from the requested address.  This is obviously difficult to debug,
  9699. but I'll look into it.
  9700.  
  9701. John
  9702.  
  9703.  
  9704.  
  9705. Log-Number: 31201
  9706. Date: Tue, 2 Jul 91 09:13:26 PDT
  9707. From: bmiller (Bob Miller)
  9708. Subject: allspice down
  9709.  
  9710.  
  9711. Allspice died about 8:15 this morning.  The messages on the console were:
  9712.  
  9713. vmMemEnd = 0xf80000f8 - Fatal Error = Vm-RawAlloc: Out of memory
  9714. Entering debugger with a Interrupt Trap (16) exception at PC 0xf60c342c
  9715.  
  9716. I tried to do some additional checking, but couldn't get anything to work!
  9717. Are those instructions taped to allspice's rack still valid?
  9718.  
  9719. Anyway...I reset allspice and re-booted it.
  9720.  
  9721.  
  9722.  
  9723. Bob
  9724.  
  9725.  
  9726. Log-Number: 31202
  9727. Date: Wed, 3 Jul 91 08:33:51 PDT
  9728. From: bmiller (Bob Miller)
  9729. Subject: allspice down
  9730.  
  9731.  
  9732. Allspice was down when I came in this morning...
  9733.  
  9734. Fatal Error: LfsOkToRead read from clean segment
  9735. Entering debugger with a Interrupt Trap (16) exception at PC 0xf60c394c
  9736.  
  9737.  
  9738. Log-Number: 31203
  9739. From: mgbaker (Mary Gray Baker)
  9740. Subject: problem rebooting 5000's remotely
  9741. Date: Wed, 03 Jul 91 16:55:31 PDT
  9742.  
  9743. Neither "shutdown -R" nor "kmsg -d" & "kmsg -R" seem to reboot a ds5000
  9744. successfully.  It seems there is no way to reboot a ds5000 remotely.
  9745.  
  9746. Mary
  9747.  
  9748.  
  9749. Log-Number: 31206
  9750. Date: Thu, 4 Jul 91 00:11:03 PDT
  9751. From: eklee (Edward K. Lee)
  9752. Subject: raid1 paniced in LFS
  9753.  
  9754. I got a core dump (/sprite/src/kernel/sprite/raid1.1.096.core) in case anyone
  9755. wants to look at it.  Go ahead and delete the core file when you're finished.
  9756. I'll delete the core file in a week if it's still there.
  9757.  
  9758. Ed
  9759.  
  9760.  
  9761. Log-Number: 31207
  9762. Date: Fri, 5 Jul 91 08:27:19 PDT
  9763. From: bmiller (Bob Miller)
  9764. Subject: allspice down - 8 AM, 7/5
  9765.  
  9766.  
  9767. Allspice was down when I came in today...
  9768.  
  9769. Fatal Error: MachPageFault: page fault in kernel process!
  9770.         pc: 0xf607cbe8, addr: 0xecdbfe40 Error: 0x80
  9771. Entering debugger with a Interrupt Trap (16) exception at PC 0xf60c397c
  9772.  
  9773.  
  9774. Log-Number: 31208
  9775. From: mgbaker (Mary Gray Baker)
  9776. Subject: allspice crashed in LFS mousetrap
  9777. Date: Fri, 05 Jul 91 12:50:20 PDT
  9778.  
  9779. Allspice crashed with a panic saying "LfsOkayToRead - clean segment" or
  9780. something like that.  Mendel is now looking at the core file for it.
  9781.  
  9782. Mary
  9783.  
  9784.  
  9785. Log-Number: 31209
  9786. From: mgbaker (Mary Gray Baker)
  9787. Subject: allspice died on DMA bus error
  9788. Date: Fri, 05 Jul 91 19:01:29 PDT
  9789.  
  9790. The most recent allspice crash was due to a dma bus error on the 3rd HBA.
  9791.  
  9792. Mary
  9793.  
  9794.  
  9795. Log-Number: 31210
  9796. Date: Mon, 8 Jul 91 11:05:01 PDT
  9797. From: ouster (John Ousterhout)
  9798. Subject: 2 Allspice crashes
  9799.  
  9800. Both Allspice crashes this morning were due to power failures.
  9801. The first power failure took out the entire campus for about
  9802. a half hour at about 8:15.  The second was a problem with the
  9803. distribution box in the machine room.
  9804.  
  9805.                     -John-
  9806.  
  9807.  
  9808. Log-Number: 31213
  9809. Date: Tue, 9 Jul 91 15:37:56 PDT
  9810. From: ouster (John Ousterhout)
  9811. Subject: Mail dead
  9812.  
  9813. Mail doesn't seem to be getting through to Sprite from the outside
  9814. world.  Can the DDJ restart the mail daemons on Allspice?  Thanks.
  9815.  
  9816.                     -John-
  9817.  
  9818.  
  9819. Log-Number: 31214
  9820. Date: Tue, 9 Jul 91 17:42:50 PDT
  9821. From: eklee (Edward K. Lee)
  9822. Subject: gdb crashes whire reading symbol table
  9823.  
  9824. Try: gdb /users/eklee/src/xatax/ds3100.md/xatax.save.
  9825.  
  9826. Ed
  9827.  
  9828.  
  9829. Log-Number: 31216
  9830. Date: Thu, 11 Jul 91 03:42:46 PDT
  9831. From: eklee (Edward K. Lee)
  9832. Subject: previous gdb bug report
  9833.  
  9834. I fixed it, you can remove this bug from the list.
  9835. It was an obscure initialization bug which appeared whenever alloca did not
  9836. return a zeroed area of memory.
  9837.  
  9838. Ed
  9839.  
  9840.  
  9841. Log-Number: 31215
  9842. From: mendel (Mendel Rosenblum)
  9843. Subject: SOSP trace collection changes break file handle scavenge
  9844. Date: Wed, 10 Jul 91 21:39:05 PDT
  9845.  
  9846.  
  9847. While trying to generate timing for the LFS recovery program I 
  9848. discovered that the Sprite kernel runs out of memory if you
  9849. create lots (~ 10000) files.  The problem is that the Sprite
  9850. file servers no longer reclaim the space used by a file
  9851. handle that a client wrote. Handles are not reclaimed as
  9852. long as there is a valid lastWriter field in the file
  9853. handle.  The lastWriter field is invalided by the routine
  9854. Fsconsist_DeleteLastWriter() which is never called in the
  9855. current Sprite kernel. Fsconsist_DeleteLastWriter() use
  9856. to be called from the remote Write RPC stub (Fsrm_Write)
  9857. when the flags in the RPC specified that this was the 
  9858. last dirty block from the client.  As part of the SOSP
  9859. tracing this code and even the flag that specified the
  9860. last block was removed.  This means that file handles
  9861. are not scavengeble until the client that writes them 
  9862. crashes.  I suspect that this change also accounted for the
  9863. increase in kernel size that we saw recently.  
  9864.  
  9865.     Mendel
  9866.  
  9867.  
  9868. Log-Number: 31217
  9869. Date: Thu, 11 Jul 91 13:36:23 PDT
  9870. From: ouster (John Ousterhout)
  9871. Subject: Mail down again?
  9872.  
  9873. Mail service into allspice from the outside world seems to be down
  9874. again.  Help, DDJ?
  9875.                     -John-
  9876.  
  9877.  
  9878. Log-Number: 31218
  9879. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9880. Date: Thu, 11 Jul 1991 14:09:18 PDT
  9881. Subject: readdir() incompatibility
  9882.  
  9883.  
  9884. readdir on SunOS (ginger) returns struct dirent, while on Sprite
  9885. it returns struct direct.  These structures are not the same.
  9886.  
  9887. John
  9888.  
  9889.  
  9890.  
  9891. Log-Number: 31219
  9892. From: mgbaker (Mary Gray Baker)
  9893. Subject: exb1 stuck busy on allspice
  9894. Date: Thu, 11 Jul 91 19:06:27 PDT
  9895.  
  9896. Is there any way, other than rebooting allspice, to deal with the following
  9897. error?
  9898.  
  9899. initializing /dev/exb1.nr
  9900. opening /dev/exb1.nr as archive file
  9901. Dump: Can't open `/dev/exb1.nr': text file or pseudo-device busy
  9902. Init failed on tape /dev/exb1.nr
  9903.  
  9904.  
  9905. Mary
  9906.  
  9907.  
  9908. Log-Number: 31220
  9909. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9910. Date: Thu, 11 Jul 1991 21:19:30 PDT
  9911. Subject: Re: exb1 stuck busy on allspice
  9912.  
  9913.  
  9914. This will happen if the device is already open by another process.
  9915. At the moment there are two dumps running on allspice.
  9916.  
  9917. John
  9918.  
  9919. ps -au | grep dump
  9920. root     f0e50  0.0  0.0   168    64 SUSP    0:00    dump -s -f /dev/exb1.nr 
  9921. root     f0e55  0.0  0.0   168    64 RWAIT   0:00    dump -s -f /dev/exb1.nr 
  9922.  
  9923.  
  9924.  
  9925.  
  9926. Log-Number: 31221
  9927. From: mgbaker (Mary Gray Baker)
  9928. Subject: allspice mystery death
  9929. Date: Fri, 12 Jul 91 23:22:28 PDT
  9930.  
  9931. A little before 11pm allspice stopped.  It didn't get into the debugger
  9932. correctly, and so I was unable to get a core image.  It printed nothing
  9933. of interest on its console, especially not a message as to why it was going
  9934. into the debugger.
  9935.  
  9936. Mary
  9937.  
  9938.  
  9939. Log-Number: 31222
  9940. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9941. Date: Mon, 15 Jul 1991 11:46:48 PDT
  9942. Subject: ds5000 wedged
  9943.  
  9944.  
  9945. When I came in this morning loiter was a zombie.  It wouldn't
  9946. respond to rpcs, the keyboard, or kmsg -d.  I reset it, and found
  9947. that it was inside of MachKernelExceptionHandler.  Perhaps it was
  9948. in some sort of infinite loop handling an exception.  Let's keep
  9949. our eyes open for similar behavior.
  9950.  
  9951. John
  9952.  
  9953.  
  9954. Log-Number: 31223
  9955. Date: Mon, 15 Jul 91 15:37:14 PDT
  9956. From: pmchen (Peter M. Chen)
  9957. Subject: mail daemon
  9958.  
  9959. I think when you restarted mail, it lost the mail that had
  9960. backlogged.  Is this inevitable?  (I got backedlogged mail last time mail
  9961. died and was restarted--Ken Shirriff was in on that one).
  9962.  
  9963. By the way, this is the second time today that mail has died.  Is there
  9964. a watchdog program to restart it (like the IPServer)?  This didn't use
  9965. to happen to mail.
  9966.  
  9967. Pete
  9968.  
  9969.  
  9970. Log-Number: 31224
  9971. Date: Mon, 15 Jul 91 17:06:22 PDT
  9972. From: shirriff (Ken Shirriff)
  9973. Subject: Sendmail problems
  9974.  
  9975. Pete Chen has been frequently encountering problems with the sendmail
  9976. daemon getting stuck.  We should try to fix this before our users get
  9977. too upset.
  9978.  
  9979.  
  9980. Log-Number: 31227
  9981. Date: Tue, 16 Jul 91 00:00:52 PDT
  9982. From: shirriff@ginger.Berkeley.EDU (Ken Shirriff)
  9983. Subject: Allspice wedged then died
  9984.  
  9985. Everything seemed to get wedged up behind piracy tonight.  I was 
  9986. poking around allspice trying to figure it out, and then allspice
  9987. died with a Mem_Free: storage block already freed error.  So I
  9988. took a core dump and rebooted.
  9989.  
  9990. Ken
  9991.  
  9992.  
  9993. Log-Number: 31228
  9994. Subject: does file locking work with nfsmount?
  9995. Date: Tue, 16 Jul 91 07:32:57 PDT
  9996. From: Mike Kupfer <kupfer>
  9997.  
  9998. I was reading news on shallot (the Sprite rn needs to be rebuilt using
  9999. a bigger newsrc size), and I tried to copy some articles into my
  10000. MH inbox using
  10001.  
  10002.   inc -file ginger/News/articles
  10003.  
  10004. ("ginger" is a symbolic link to /home/ginger/sprite/users/kupfer).
  10005. After a long pause I got
  10006.  
  10007.   unable to lock and fopen /user6/kupfer/ginger/News/articles
  10008.  
  10009. I assume this is some sort of nfsmount problem.  It's probably not
  10010. worth spending a great deal of time on, though.
  10011.  
  10012. mike
  10013.  
  10014.  
  10015. Log-Number: 31229
  10016. From: mendel (Mendel Rosenblum)
  10017. Subject: Re: does file locking work with nfsmount? 
  10018. Date: Tue, 16 Jul 91 11:19:20 PDT
  10019.  
  10020.  
  10021. > I was reading news on shallot (the Sprite rn needs to be rebuilt using
  10022. > a bigger newsrc size), and I tried to copy some articles into my
  10023. > MH inbox using
  10024. >   inc -file ginger/News/articles
  10025. > ("ginger" is a symbolic link to /home/ginger/sprite/users/kupfer).
  10026. > After a long pause I got
  10027. >   unable to lock and fopen /user6/kupfer/ginger/News/articles
  10028. > I assume this is some sort of nfsmount problem.  It's probably not
  10029. > worth spending a great deal of time on, though.
  10030. > mike
  10031.  
  10032. The nfsmount daemon doesn't implement the IOC_LOCK Fs_IoControl so it
  10033. returns the error code GEN_NOT_IMPLEMENTED which equals 4.  Since the
  10034. nfsmount uses the pdev library that treats error codes as Unix errnos
  10035. it assumes the error code was really EINTR == 4 (Interrupted system call).
  10036. This gets map to GEN_ABORTED_BY_SIGNAL before it is returned to the 
  10037. kernel.  This could be a problem because GEN_ABORTED_BY_SIGNAL errors
  10038. are normally retried by the stubs in libc in the assumption that they
  10039. were caused by migration.  Fortunately, someone already discovered this
  10040. problem and special-cased the Fs_IOControl stub not to retry IOC_LOCKs
  10041. that are aborted by signals.  Had you tried to unlock the file your 
  10042. process would have gone into an infinite loop doing RPCs to assault
  10043. until one of the RPCs suffered at timeout.  
  10044.  
  10045. A simple patch would be to make nfsmount return SUCCESS for IOC_LOCK and
  10046. IOC_UNLOCK so programs will not abort.  Implementing the locking would be
  10047. more work.
  10048.  
  10049.     Mendel
  10050.  
  10051. ps  The long pause was probably due to the inc program which retries the
  10052.     open/flock calls 5 times with 5 second sleep between them.
  10053.  
  10054.  
  10055. Log-Number: 31233
  10056. From: mendel (Mendel Rosenblum)
  10057. Subject: Patch for sendmail hangup
  10058. Date: Tue, 16 Jul 91 16:00:26 PDT
  10059.  
  10060.  
  10061. I put a patch in sendmail that reopens the socket when it gets an
  10062. error on the accept() call.  This appears to get around the
  10063. problem with sendmail hanging up.
  10064.  
  10065.     Mendel
  10066.  
  10067.  
  10068. Log-Number: 31235
  10069. Date: Wed, 17 Jul 91 16:12:31 PDT
  10070. From: margo (Margo Seltzer)
  10071. Subject: ds3100 crashed creating lfs directory
  10072.  
  10073.  
  10074. Kvetching's disk (formerly babylon's) was just repartitioned into
  10075. an old fs (~200M) and an lfs (~100M).  The first time I tried creating
  10076. a directory on the lfs, the kernel crashed with a Reserved Instruction
  10077. at 0x80092c58.
  10078.  
  10079. - M
  10080.  
  10081.  
  10082. Log-Number: 31236
  10083. From: mendel (Mendel Rosenblum)
  10084. Subject: Fixed bug in connect()
  10085. Date: Wed, 17 Jul 91 16:34:12 PDT
  10086.  
  10087.  
  10088. I fixed a bug in the connect() library routine that was causing sendmail
  10089. to act have problems sending mail and sometimes go into the debugger.
  10090. The problem was the connect() routine was passing the global "constant"
  10091. time_OneMinute to Fs_Select(). If the connection timed-out, Fs_Select()
  10092. would get time_OneMinute to zero.  This caused all future connect() request
  10093. to timeout.
  10094.  
  10095.     Mendel
  10096.  
  10097.  
  10098. Log-Number: 31237
  10099. Subject: repl dies on long "to" list?
  10100. Date: Fri, 19 Jul 91 17:09:15 PDT
  10101. From: Mike Kupfer <kupfer>
  10102.  
  10103. When I try to reply to Terry's message (below), repl (the MH reply
  10104. program) gets a segmentation fault.  After building an executable that
  10105. has symbols, I put it into the debugger.  The problem seems to come
  10106. from a realloc() of the buffer that contains the "to" list.  When I
  10107. relinked with -lc_g, repl didn't die, but the "cc" list (constructed
  10108. from the "to" list) was truncated and slightly munged.  It's not
  10109. immediately obvious to me whether this is a bug in repl or in malloc().
  10110.  
  10111. mike
  10112. --
  10113. Return-Path: theresa@shallot.Berkeley.EDU
  10114. Received: from shallot.Berkeley.EDU by sprite.Berkeley.EDU (5.59/1.29)
  10115.     id AA331343; Thu, 18 Jul 91 16:37:24 PDT
  10116. Received: by shallot.Berkeley.EDU (4.1/1.42)
  10117.     id AA05115; Thu, 18 Jul 91 16:37:17 PDT
  10118. Date: Thu, 18 Jul 91 16:37:17 PDT
  10119. >From: theresa@shallot.Berkeley.EDU (Theresa Lessard-Smith)
  10120. Message-Id: <9107182337.AA05115@shallot.Berkeley.EDU>
  10121. To: ani@ucbarpa.berkeley.edu, ann@guitar.Berkeley.EDU,
  10122.         bmiller@sprite.Berkeley.EDU, chiueh@ginger.Berkeley.EDU,
  10123.         ss@joyride.Berkeley.EDU, pfile@villandry.Berkeley.EDU,
  10124.         pfile@cory.Berkeley.EDU, msilva@sprite.Berkeley.EDU,
  10125.         delnaz@miro.Berkeley.EDU, delnaz@ucbarpa.berkeley.edu,
  10126.         joel@sprite.Berkeley.EDU, seth@miro.Berkeley.EDU,
  10127.         glenn@ucbarpa.berkeley.edu, tzeng@ucbarpa.berkeley.edu,
  10128.         ksmith@miro.Berkeley.EDU, chinrung@miro.Berkeley.EDU,
  10129.         schauser@boing.Berkeley.EDU, tve@sprite.Berkeley.EDU,
  10130.         spriters@sprite.Berkeley.EDU, rquiros@chism.Berkeley.EDU,
  10131.         rquiros@king.Berkeley.EDU, mani@cory.Berkeley.EDU,
  10132.         vahdat@cory.Berkeley.EDU, funk@miro.Berkeley.EDU,
  10133.         ajay@miro.Berkeley.EDU, rice@miro.Berkeley.EDU, kyi@cory.Berkeley.EDU,
  10134.         claire@postgres.Berkeley.EDU, crystal@ucbarpa.berkeley.edu,
  10135.         glen@ra.Berkeley.EDU, jean@ucbarpa.berkeley.edu,
  10136.         liza@ucbarpa.berkeley.edu, madfitz@ucbarpa.berkeley.edu,
  10137.         raid@ginger.Berkeley.EDU, sarahb@harmony.Berkeley.EDU,
  10138.         sharon@ucbarpa.berkeley.edu, teresa@ucbarpa.berkeley.edu,
  10139.         theresa@shallot.Berkeley.EDU, tonys@guitar.Berkeley.EDU,
  10140.         xprs@ginger.Berkeley.EDU, raid@sprite.Berkeley.EDU,
  10141.         cori@ginger.Berkeley.EDU, gibson@ginger.Berkeley.EDU,
  10142.         ho@ginger.Berkeley.EDU, luigi@ginger.Berkeley.EDU,
  10143.         schauser@boing.Berkeley.EDU, bertrand@buzz.Berkeley.EDU,
  10144.         dedood@burble.Berkeley.EDU, sah@sprite.Berkeley.EDU,
  10145.         decman@boing.Berkeley.EDU, flaster@boing.Berkeley.EDU,
  10146.         tve@sprite.Berkeley.EDU, moreton@miro.Berkeley.EDU,
  10147.         funk@miro.Berkeley.EDU, clay@miro.Berkeley.EDU,
  10148.         shirman@miro.Berkeley.EDU, chandra@ucbarpa.berkeley.edu
  10149. Subject: new CS bldg. furniture
  10150.  
  10151.  
  10152. I would like to have your opinion on one area of furniture for offices
  10153. in the new CS building -- that item is:  your chair.
  10154.  
  10155. If you had a preference, would you want a desk chair that had arms or no
  10156. arms.  For the kind of work and sitting that you do, which is your
  10157. preference?
  10158.  
  10159. Please let me know within the next few days.
  10160.  
  10161. Thanks for your help.
  10162.  
  10163. Terry
  10164.  
  10165.  
  10166. Log-Number: 31239
  10167. From: mgbaker (Mary Gray Baker)
  10168. Subject: allspice crash in fscache module
  10169. Date: Sun, 21 Jul 91 15:17:23 PDT
  10170.  
  10171. Allspice crashed today with the following message:
  10172.  
  10173.     Fatal Error: Fscache_RemoveFileFromDirtyList blocks in cache.
  10174.  
  10175.  
  10176. The previous message on the console indicated that it had just done an
  10177. Lfs checkpoint, but I don't know how long before or whether this is related.
  10178. This message said
  10179.  
  10180.     DirtyBlocks (2) after a checkpoint
  10181.  
  10182.  
  10183. The corefile for debugging is called vmcore.removefiledirtylist.  I'll try
  10184. to get around to debugging it, but I've gotta finish a few things first, so
  10185. anyone else is welcome to have a shot at it.
  10186.  
  10187. Mary
  10188.  
  10189.  
  10190. Log-Number: 31240
  10191. Date: Mon, 22 Jul 91 10:53:03 PDT
  10192. From: ouster (John Ousterhout)
  10193. Subject: Core leak in execvp
  10194.  
  10195. In tracking down what seemed to be core leaks in Tcl today I found
  10196. that the real problem is in execvp.  It used malloc to allocate a
  10197. couple of buffers.  After a vfork, the child and parent share heap,
  10198. so these mallocs consume space in the parent which isn't freed
  10199. after the child execs (and execvp can't free the space before it
  10200. execs).
  10201.  
  10202. I fixed the problem by switching to fixed-size buffers for a couple
  10203. of things.  This can cause exec's to fail when they would succeed
  10204. otherwise (e.g. if the name of a file to exec is longer than 1000
  10205. chars or a shell script executed by default (i.e. without #! notation)
  10206. has more than 1000 arguments), but I don't know any other way to solve
  10207. the problem.
  10208.  
  10209. I've modified and tested the code, and I installed the "exec"
  10210. subdirectory of libc, but I didn't reinstall the whole C library.
  10211.  
  10212.                     -John-
  10213.  
  10214.  
  10215. Log-Number: 31242
  10216. From: mendel (Mendel Rosenblum)
  10217. Subject: More on gdb inserting ^P over rlogin connections
  10218. Date: Tue, 23 Jul 91 11:21:11 PDT
  10219.  
  10220.  
  10221. You have probably noticed that using gdb over rlogin connections causes
  10222. random ^P's to be inserted in the output stream and output is sometimes
  10223. lost.  The problem appears to be bug in either the ipServer or unix
  10224. compat stuff with sockets and out-of-band data. Gdb uses the readline
  10225. library package that sets and resets certain tty driver attributes
  10226. before and after each line it reads.  One of the things it does
  10227. is to undefine the stop/start characters and reset them the to
  10228. the orginial state after reading the line.  Rlogind uses out-of-band
  10229. messages to instruct the local rlogin process to change the flow
  10230. control characters.  This uses of out-of-band data appears to cause
  10231. some of the output to be lost. Also, some of the out-of-band data
  10232. get inserted into the data stream (^P is the out-of-band command to
  10233. turn off the flow control characters.)  
  10234.  
  10235. We can hope that this problems will go away when we put the inet
  10236. code in the kernel.  In the mean time here are a couple of possible
  10237. ways around the problem:
  10238.  
  10239.     1) Use telnet or tx rather than rlogin to access the remote system. 
  10240.     2) Undefine the start/stop characters before using gdb.  
  10241.     (ie.  stty start u stop u)
  10242.  
  10243.     Mendel    
  10244.  
  10245.  
  10246. Log-Number: 31243
  10247. Subject: /unix/cmds.ds3100/import.ds3100 is ugly (whining)
  10248. Date: Wed, 24 Jul 91 15:17:47 PDT
  10249. From: Mike Kupfer <kupfer>
  10250.  
  10251. well, it's not ugly by itself, but it makes "df" format each line to
  10252. be longer than 80 columns, which is ugly.
  10253.  
  10254. mike
  10255.  
  10256.  
  10257. Log-Number: 31244
  10258. Date: Wed, 24 Jul 91 15:26:03 PDT
  10259. From: shirriff (Ken Shirriff)
  10260. Subject: Re: /unix/cmds.ds3100/import.ds3100 is ugly (whining)
  10261.  
  10262. I've changed /unix/cmds.ds3100/import.ds3100 to /unix/import.ds3100.
  10263. Now the df is nice.
  10264.  
  10265. Ken
  10266.  
  10267.  
  10268. Log-Number: 31245
  10269. Date: Thu, 25 Jul 91 11:41:42 PDT
  10270. From: pmchen (Peter M. Chen)
  10271. Subject: machparam.h
  10272.  
  10273. /usr/include/sys/wait.h includes <machparam.h> which doesn't exist.  It
  10274. looks like its new place is /usr/include/machine/machparam.h
  10275.  
  10276. Should /usr/include/sys/wait.h be updated?
  10277.  
  10278. Pete
  10279.  
  10280.  
  10281. Log-Number: 31246
  10282. From: mendel (Mendel Rosenblum)
  10283. Subject: Re: machparam.h 
  10284. Date: Thu, 25 Jul 91 12:12:13 PDT
  10285.  
  10286.  
  10287. > /usr/include/sys/wait.h includes <machparam.h> which doesn't exist.  It
  10288. > looks like its new place is /usr/include/machine/machparam.h
  10289. > Should /usr/include/sys/wait.h be updated?
  10290. > Pete
  10291.  
  10292. This is a decStation only problem caused by using the Ultrix compilers on Sprite.
  10293. The cc command on the DecStation uses the ultrix preprocessor which has a 
  10294. default search path of /usr/include.  The rest of the machines use
  10295. GNU cpp that has a default path of /usr/include and /usr/include/${MACHINE}.md. 
  10296. machparam.h is /usr/include/${MACHINE}.md.  I changed wait.h to include
  10297.  <machine/machparam.h> which should get around this problem. We are going to
  10298. need this for Unix compat to work correctly.
  10299.  
  10300.     Mendel
  10301.  
  10302.  
  10303. Log-Number: 31247
  10304. Date: Thu, 25 Jul 91 16:01:07 PDT
  10305. From: pmchen (Peter M. Chen)
  10306. Subject: screwed up mail
  10307.  
  10308. My mail file is screwed up.  Try "tail /usr/spool/mail/pmchen", and you'll
  10309. get lots of 
  10310. 
  10311.  
  10312. I noticed this because my xbiff icon lit up, yet there was no new mail.
  10313.  
  10314. Pete
  10315.  
  10316.  
  10317. Log-Number: 31248
  10318. Date: Thu, 25 Jul 91 16:05:32 PDT
  10319. From: pmchen (Peter M. Chen)
  10320. Subject: /tmp is full (with 96MB free)?
  10321.  
  10322. I get lots of the following messages:
  10323. 7/25/91 15:53:45 allspice (14) RmtFile "/tmp/ftp535617" <3,55> Write-back failed: out of disk space<40008>
  10324.  
  10325. but df /tmp returns
  10326. Prefix              Server       KBytes       Used      Avail    % Used
  10327. /tmp                allspice     270336     147119      96183      60%
  10328.  
  10329. Pete
  10330.  
  10331.  
  10332. Log-Number: 31249
  10333. Date: Thu, 25 Jul 91 16:11:19 PDT
  10334. From: pmchen (Peter M. Chen)
  10335. Subject: machparam.h
  10336.  
  10337. The same situation (as in <sys/wait.h>) also occurs in <sys/scsi.h> and
  10338. <sys/param.h>
  10339.  
  10340. Pete
  10341.  
  10342.  
  10343. Log-Number: 31250
  10344. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  10345. Date: Thu, 25 Jul 1991 17:11:50 PDT
  10346. Subject: Re: machparam.h
  10347.  
  10348. You'll be better off using mkmf to produce Makefiles.  It will set upt
  10349. the -I flags correctly so your stuff will compile.
  10350.  
  10351. John
  10352.  
  10353.  
  10354. Log-Number: 31251
  10355. Subject: Peter's mail file fixed
  10356. Date: Thu, 25 Jul 91 17:14:32 PDT
  10357. From: Mike Kupfer <kupfer>
  10358.  
  10359. It apparently got a huge number of ASCII DEL's stuck at the very
  10360. end.  I whacked off the last line with vi, which apparently got rid of
  10361. the DEL's.
  10362.  
  10363. mike
  10364.  
  10365.  
  10366. Log-Number: 31252
  10367. Date: Thu, 25 Jul 91 18:39:52 PDT
  10368. From: pmchen (Peter M. Chen)
  10369. Subject: Re: Peter's mail file fixed
  10370.  
  10371. Yes, but I happened to lose about 3 messages in the process.  The only
  10372. reason I realized this was because I have a copy of my mail forwarded to
  10373. another machine.
  10374.  
  10375. Pete
  10376.  
  10377.  
  10378. Log-Number: 31253
  10379. From: mendel (Mendel Rosenblum)
  10380. Subject: Re: Peter's mail file fixed 
  10381. Date: Thu, 25 Jul 91 18:45:06 PDT
  10382.  
  10383. > Return-Path: pmchen
  10384. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  10385. >     id AA470080; Thu, 25 Jul 91 18:39:52 PDT
  10386. > Date: Thu, 25 Jul 91 18:39:52 PDT
  10387. > From: pmchen (Peter M. Chen)
  10388. > Message-Id: <9107260139.AA470080@sprite.Berkeley.EDU>
  10389. > To: kupfer
  10390. > Subject: Re: Peter's mail file fixed
  10391. > Cc: bugs
  10392. > Yes, but I happened to lose about 3 messages in the process.  The only
  10393. > reason I realized this was because I have a copy of my mail forwarded to
  10394. > another machine.
  10395. > Pete
  10396.  
  10397. Maybe this is related to the messages in allspice's syslog when /tmp filled.
  10398. There were many messages of the form:
  10399.  
  10400. Fscache_Write: Alloc failed <3,3> "ma069201" DISK FULL
  10401. <9>Jul 25 17:42:05 syslog: MAIL: Suspected mail fault!!!
  10402. <9>Jul 25 17:42:05 syslog: MAIL: message: 
  10403.  
  10404.  
  10405. Anyone know what produced these errors.
  10406.  
  10407.     Mendel
  10408.  
  10409.  
  10410. Log-Number: 31254
  10411. Date: Thu, 25 Jul 91 21:23:42 PDT
  10412. From: shirriff (Ken Shirriff)
  10413. Subject: Re: Peter's mail file fixed
  10414.  
  10415. The "Suspected mail fault" message comes from the "mail" program, if
  10416. it is given a garbaged mail file to deliver.
  10417. Here is what seems to have happened:
  10418. The sendmail program was trying to deliver a spooled mail file, so it
  10419. piped it into "mail".  However, the spooled mail file was empty or nulls,
  10420. so the mail program complained.  So apparently the spooled mail file
  10421. is what got trashed.
  10422.  
  10423. Ken
  10424.  
  10425.  
  10426. Log-Number: 31255
  10427. From: mendel (Mendel Rosenblum)
  10428. Subject: Panic message not printed on Allspice's console.
  10429. Date: Fri, 26 Jul 91 10:14:14 PDT
  10430.  
  10431.  
  10432. Allspice crashed yesterday during the Sprite meeting with the message:
  10433.  
  10434.    Entering debugger with a Interrupt Trap (16) exception at PC 0x...
  10435.  
  10436. This message was caused by the DBG_CALL macro in the panic() routine.
  10437. Unfortunately, the panic message itself was lost.  I suspect that this is
  10438. due to the newtee program being used to capture the syslog. On a panic() 
  10439. call the system goes down before the newtee program has a chance to 
  10440. output the panic() message to the console.  Because the newtee program
  10441. has already read the message from the syslog buffer it is not in the
  10442. kernel core file either and is sometimes hard to reconstruct the
  10443. arguments to panic() using the backtrace.  
  10444.  
  10445.     Mendel
  10446.  
  10447.  
  10448. Log-Number: 31256
  10449. From: mendel (Mendel Rosenblum)
  10450. Subject: Problems with /tmp
  10451. Date: Fri, 26 Jul 91 10:37:01 PDT
  10452.  
  10453.  
  10454. /tmp filled several times yesterday. The problem was the 
  10455. LFS on /tmp was configured to allow only 65% of the disk
  10456. to be used.  I corrected this problem but it won't take effect 
  10457. until allspice is rebooted.  Part of problem is LFS files systems 
  10458. inform the "df" command of the real disk capacity utilization and 
  10459. not the fraction of usable disk space. To avoid further confusion 
  10460. I patched LFS to lie like the Unix file system does.  Now it
  10461. will say 100% Used, 0 Avail when the file system can take no more.
  10462.  
  10463.     Mendel
  10464.  
  10465. ps I guess to be really Unix compatible the df command should say 110% Used
  10466.    when the disk is full. I think I'm going to modify LFS to let users
  10467.    use 120% of the disk; then LFS will allow you to use 10% more space 
  10468.    than Unix.
  10469.  
  10470.  
  10471. Log-Number: 31257
  10472. From: mendel (Mendel Rosenblum)
  10473. Subject: Allspice panic with disk full
  10474. Date: Fri, 26 Jul 91 10:56:38 PDT
  10475.  
  10476.  
  10477. Allspice crashed yesterday during the Sprite meeting when /tmp ran out 
  10478. of disk space.  The crash had a previously reported error message of:
  10479.  
  10480. Fatal Error: LfsError on: /tmp status 0x1, Can't update descriptor map.
  10481.  
  10482. Contrary to the error message, this is not a problem in LFS.  The problem
  10483. is in fslclLookup.c in the routine CreateFile(). It occurs when a file
  10484. or directory can't be created or added to a directory because the disk is
  10485. full.  If the directory block create or the component insert fails the
  10486. code releases the newly created handle, frees the memory allocated
  10487. for the file descriptor memory, and deallocates the file number.  Unfortunately,
  10488. it leaves the handle inserted in the handle table pointing at unallocated
  10489. memory for its descriptor and possible with dirty blocks in the cache.
  10490. LFS panics when it finds this file because it's file number is not
  10491. allocated. It's going to take more than a one-line bug fix to back out
  10492. of the mess left when this happens.  If you ever see the message:
  10493. DISK FULL followed by "CreateFile: unwinding" this problem just happened
  10494. and the system doesn't have long to live.
  10495.  
  10496.     Mendel
  10497.  
  10498.  
  10499. Log-Number: 31258
  10500. Date: Fri, 26 Jul 91 14:26:17 PDT
  10501. From: ouster (John Ousterhout)
  10502. Subject: Strange mail behavior
  10503.  
  10504. Several times in the last hour I have received the "You have new mail"
  10505. blip from the shell, but when I entered the mail program there were no
  10506. new messages.  This makes me *very* nervous.  Is anyone else experiencing
  10507. the same behavior?  Could mail somehow be getting lost?
  10508.  
  10509.                     -John-
  10510.  
  10511.  
  10512. Log-Number: 31259
  10513. Date: Fri, 26 Jul 91 14:28:46 PDT
  10514. From: bmiller (Bob Miller)
  10515. Subject: Re: Strange mail behavior
  10516.  
  10517. I had this happen to me 3 or 4 times yesterday...
  10518.  
  10519.  
  10520. Log-Number: 31260
  10521. Date: Fri, 26 Jul 91 14:30:53 PDT
  10522. From: ouster (John Ousterhout)
  10523. Subject: Re: Strange mail behavior
  10524.  
  10525. I think I've fixed the problem:  seems there were a bunch of NULLs
  10526. in my mail spool file, and somehow the NULLs convinced the "mail"
  10527. program to ignore everything after them.  I deleted the NULLs and
  10528. several new messages suddenly appeared.
  10529.  
  10530.                     -John-
  10531.  
  10532.  
  10533. Log-Number: 31261
  10534. From: mendel (Mendel Rosenblum)
  10535. Subject: Re: Strange mail behavior 
  10536. Date: Fri, 26 Jul 91 14:37:41 PDT
  10537.  
  10538. I suspect that the mail problems are related to /tmp filling up.  From 
  10539. allspice's syslog:
  10540.  
  10541. Fscache_Write: Alloc failed <3,3> "xlisp.trace.vm" DISK FULL
  10542. Fscache_Write: Alloc failed <3,3> "ma003667" DISK FULL
  10543. <9>Jul 26 13:52:34 syslog: MAIL: Suspected mail fault!!!
  10544. <9>Jul 26 13:52:34 syslog: MAIL: message: 
  10545. <54>Jul 26 13:53:40 lpd[10e54]: lw608-1: lost connection
  10546. Fscache_Write: Alloc failed <3,3> "ma593502" DISK FULL
  10547. <9>Jul 26 13:54:08 syslog: MAIL: Suspected mail fault!!!
  10548. <9>Jul 26 13:54:08 syslog: MAIL: message: 
  10549. Fscache_Write: Alloc failed <3,3> "ma921147" DISK FULL
  10550. <9>Jul 26 13:54:49 syslog: MAIL: Suspected mail fault!!!
  10551. <9>Jul 26 13:54:49 syslog: MAIL: message: 
  10552. Fscache_Write: Alloc failed <3,3> "ma069187" DISK FULL
  10553. <9>Jul 26 13:54:49 syslog: MAIL: Suspected mail fault!!!
  10554. <9>Jul 26 13:54:49 syslog: MAIL: message: 
  10555.  
  10556. I talked with chiueh and hopefully this will not happen again.
  10557.  
  10558.     Mendel
  10559.  
  10560.  
  10561. Log-Number: 31263
  10562. Date: Sat, 27 Jul 91 21:13:50 PDT
  10563. From: elm (ethan miller)
  10564. Subject: runaway sendmail on assault?
  10565.  
  10566. There is a sendmail process (81949) on assault that seems to be out
  10567. of control.  It has used 1885 seconds of CPU time so far.  Anyone want
  10568. to look at, or should it just be killed?
  10569.  
  10570. ethan
  10571.  
  10572.  
  10573. Log-Number: 31264
  10574. Date: Sat, 27 Jul 91 21:28:01 PDT
  10575. From: shirriff (Ken Shirriff)
  10576. Subject: Re: runaway sendmail on assault?
  10577.  
  10578. I tried to debug the sendmail process (81949), but I couldn't get it into
  10579. the debugger.  Looking at the code, it blocks the Unix SIGQUIT signal, which
  10580. is equivalent to the Sprite DEBUG signal.  So unless someone knows a secret
  10581. way to get processes into the debugger, I don't think we can debug it.
  10582.  
  10583. Ken
  10584.  
  10585.  
  10586. Log-Number: 31265
  10587. Date: Sun, 28 Jul 91 11:58:09 PDT
  10588. From: mendel (Mendel Rosenblum)
  10589. Subject: Re: runaway sendmail on assault?
  10590.  
  10591. Try sending it a single that it doesn't catch but still puts in it the
  10592. debugger.  Something like SIGILL or SIGBUS or SIGFPE will work. You
  10593. will have to use the gdb "handle" command if you want to continue
  10594. execution after attaching the process.
  10595.  
  10596.     Mendel
  10597.  
  10598.  
  10599.  
  10600. Log-Number: 31266
  10601. From: Fred Douglis <douglis@cs.vu.nl>
  10602. Subject: Re: runaway sendmail on assault? 
  10603. Date: Sun, 28 Jul 91 21:35:09 +0200
  10604.  
  10605. >>>>> On Sat, 27 Jul 91 21:28:01 PDT, shirriff@sprite.Berkeley.EDU
  10606. >>>>> (Ken Shirriff) said:
  10607.  
  10608.     Ken> I tried to debug the sendmail process (81949), but I couldn't
  10609.     Ken> get it into the debugger.  Looking at the code, it blocks the
  10610.     Ken> Unix SIGQUIT signal, which is equivalent to the Sprite DEBUG
  10611.     Ken> signal.  So unless someone knows a secret way to get
  10612.     Ken> processes into the debugger, I don't think we can debug it.
  10613.  
  10614. >>>>> mendel@sprite.Berkeley.EDU (Mendel Rosenblum) adds:
  10615.  
  10616.     Mendel> Try sending it a single that it doesn't catch but still
  10617.     Mendel> puts in it the debugger.  Something like SIGILL or SIGBUS
  10618.     Mendel> or SIGFPE will work. You will have to use the gdb "handle"
  10619.     Mendel> command if you want to continue execution after attaching
  10620.     Mendel> the process.
  10621.  
  10622. I think STOP will have the best of both worlds -- as I recall, it's
  10623. just like the DEBUG signal except that the DEBUG signal is catchable
  10624. and sets a flag so you know the process is in a special state.  But
  10625. you can debug a suspended process just like a "debuggable" one.
  10626.  
  10627. Fred
  10628.  
  10629.  
  10630. Log-Number: 31268
  10631. Date: Sun, 28 Jul 91 15:54:31 PDT
  10632. From: shirriff (Ken Shirriff)
  10633. Subject: Re: runaway sendmail on assault?
  10634.  
  10635. I debugged the runaway sendmail.  It was in an infinite loop in malloc.
  10636. Apparently a block of memory got overwritten with 0's.  I couldn't figure
  10637. out where this happened.
  10638.  
  10639. Ken
  10640.  
  10641.  
  10642. Log-Number: 31269
  10643. Date: Mon, 29 Jul 91 08:46:29 PDT
  10644. From: margo (Mary Gray Baker)
  10645. Subject: "Bogus bp-trap" on login
  10646.  
  10647.  
  10648. Kvetching (running on the "new" kernel) responds to pings, but doesn't 
  10649. allow any logins.  Both when rlogging in and logging in from the console,
  10650. the message "Bogus bp-trap" appears.
  10651.  
  10652. I put it in the debugger but was unable to get any useful
  10653. information from it.
  10654.  
  10655. - M
  10656.  
  10657.  
  10658. Log-Number: 31270
  10659. Date: Mon, 29 Jul 91 08:48:12 PDT
  10660. From: bmiller (Bob Miller)
  10661. Subject: printer hung
  10662.  
  10663.  
  10664. The printer here in our office (lw533) is hung.  Can someone check into
  10665. fixing the problem?  Thanks.
  10666.  
  10667.  
  10668. Bob
  10669.  
  10670.  
  10671. Log-Number: 31271
  10672. Date: Mon, 29 Jul 91 17:00:51 PDT
  10673. From: shirriff (Ken Shirriff)
  10674. Subject: L1-B into debugger
  10675.  
  10676. L1-? doesn't list any function for L1-B, but L1-B throws machines into
  10677. the debugger, much to my surprise.  Apparently L1-B used to be the
  10678. function for the serial line debugger.  It is no longer listed
  10679. in the L1 functions, but it still works.  So should I remove the
  10680. L1-B function?
  10681.  
  10682. Ken
  10683.  
  10684.  
  10685. Log-Number: 31273
  10686. Date: Tue, 30 Jul 91 12:37:53 PDT
  10687. From: shirriff (Ken Shirriff)
  10688. Subject: coons console messed up
  10689.  
  10690. Text to the console of coons (a color ds5000) gets totally
  10691. messed up if the text wraps around the end of the line.
  10692. (It prints a whole line of the character that wraps around.)
  10693.  
  10694.  
  10695. Log-Number: 31274
  10696. Date: Wed, 31 Jul 91 12:05:29 PDT
  10697. From: pmchen (Peter M. Chen)
  10698. Subject: df contacts greed?
  10699.  
  10700. When I do a "df /user4" on mustard (ds5000), it apparently has to wait for
  10701. greed to RPC timeout before responding.  Greed is now listed as being
  10702. down (doesn't ping).
  10703.  
  10704. <domain info> 7/31/91 12:03:05 greed (24) RPC timed-out
  10705.  
  10706. This is a pretty minor annoyance, but why does df need to contact greed?
  10707. This has been happening for a few days.
  10708.  
  10709. Pete
  10710.  
  10711.  
  10712. Log-Number: 31275
  10713. Date: Wed, 31 Jul 91 12:09:15 PDT
  10714. From: shirriff (Ken Shirriff)
  10715. Subject: Re: df contacts greed?
  10716.  
  10717. I did "prefix -d /graphics" on mustard, and now df doesn't wait for greed.
  10718. (/graphics is served by greed.)  Apparently df contacts all the machines
  10719. in the prefix table, even if you just want one file system.
  10720.  
  10721. Ken
  10722.  
  10723.  
  10724. Log-Number: 31276
  10725. Date: Wed, 31 Jul 91 23:36:57 PDT
  10726. From: pmchen (Peter M. Chen)
  10727. Subject: missed mail
  10728.  
  10729. I got sent two messages (both from rquiros@sprite) that never appeared
  10730. in my mbox on sprite.  The reason I know they were sent is because my
  10731. mail gets forwarded/copied to ginger.  Is this due to / filling up
  10732. (as per Mary's "messed up mail" message)?
  10733.  
  10734. Pete
  10735.  
  10736.  
  10737. Log-Number: 31277
  10738. From: mendel (Mendel Rosenblum)
  10739. Subject: New kernel (1.097) bug with raw disk devices
  10740. Date: Thu, 01 Aug 91 10:15:01 PDT
  10741.  
  10742.  
  10743. A sparcStation1 or sparcStation2 has trouble reading a raw disk device
  10744. when running a new kernel.   For example:
  10745.  
  10746. jaywalk% dd if=/dev/rsd01c of=/dev/null bs=64k count=1
  10747. 0+1 records in
  10748. 0+1 records out
  10749.  
  10750. only transfers 512 bytes and generates the syslog messages:
  10751.  
  10752. DevRawBlockDevRead: error 0x0 inLength 65536 at offset 0x0 outLength 512
  10753.  
  10754. The problem occurs on any read of the raw device larger than 2048 bytes.
  10755. I haven't tried this on the decStations.
  10756.  
  10757.     Mendel
  10758.  
  10759. ps I wouldn't boot this kernel on a machine with local file systems. Fscheck
  10760.    might get confused and destory the file systems.
  10761.  
  10762.  
  10763. Log-Number: 31278
  10764. From: mendel (Mendel Rosenblum)
  10765. Subject: Re: New kernel (1.097) bug with raw disk devices 
  10766. Date: Thu, 01 Aug 91 11:01:10 PDT
  10767.  
  10768.  
  10769. > I haven't tried this on the decStations.
  10770. >     Mendel
  10771.  
  10772.  
  10773. The problem occurs on ds5000 machines but not sun4 (sun4/200) machines.
  10774.  
  10775.     Mendel
  10776.  
  10777.  
  10778. Log-Number: 31279
  10779. Date: Thu, 1 Aug 91 11:06:42 PDT
  10780. From: shirriff (Ken Shirriff)
  10781. Subject: Re: New kernel (1.097) bug with raw disk devices
  10782.  
  10783. I booted the 1.097 kernel on kvetching yesterday, and it worked fine.
  10784. (Kvetching is a ds3100 serving /postdev)
  10785.  
  10786. Ken
  10787.  
  10788.  
  10789. Log-Number: 31281
  10790. Date: Thu, 1 Aug 91 16:37:33 PDT
  10791. From: elm (ethan miller)
  10792. Subject: RPCs to allspice hang during LFS cleaning
  10793.  
  10794. Is there any way to allow allspice to continue normal operation
  10795. while doing LFS segment cleaning?  It's annoying to have allspice
  10796. hang for two or three minutes while it cleans segments.  Is this
  10797. intrinsic to the segment cleaning operation, or could this be
  10798. fixed?
  10799.  
  10800. ethan
  10801.  
  10802.  
  10803. Log-Number: 31285
  10804. Date: Sun, 4 Aug 91 13:56:48 PDT
  10805. From: mottsmth (Jim Mott-Smith)
  10806. Subject: "listen" socket call behavior
  10807.  
  10808.  
  10809. The ipServer does not allow more than 1 "listen" call
  10810. on a socket; it reports EOPNOTSUPP on subsequent calls.
  10811. This is inconsistent with SunOS which allows multiple "listen" calls,
  10812. which is useful for changing the backlog parameter.
  10813.  
  10814. -- Jim M-S
  10815.  
  10816.  
  10817.  
  10818. Log-Number: 31286
  10819. Date: Sun, 4 Aug 91 17:25:17 PDT
  10820. From: shirriff (Ken Shirriff)
  10821. Subject: Compiler bug?
  10822.  
  10823. When I run this program, the result is "Large":
  10824.  
  10825. main()
  10826. {
  10827.     int i;
  10828.     i = -100;
  10829.     if (i<sizeof(int)) {
  10830.     printf("Small\n");
  10831.     } else {
  10832.     printf("Large\n");
  10833.     }
  10834. }
  10835.  
  10836. Is this a compiler bug or does sizeof not work the way I expect?
  10837.  
  10838. Ken
  10839.  
  10840.  
  10841. Log-Number: 31287
  10842. Date: Sun, 4 Aug 91 17:33:53 PDT
  10843. From: eklee (Edward K. Lee)
  10844. Subject: Re: Compiler bug?
  10845.  
  10846. >>From shirriff Sun Aug  4 17:25:40 1991
  10847. >>Date: Sun, 4 Aug 91 17:25:17 PDT
  10848. >>From: shirriff (Ken Shirriff)
  10849. >>To: bugs
  10850. >>Subject: Compiler bug?
  10851.  
  10852. >>When I run this program, the result is "Large":
  10853.  
  10854. >>main()
  10855. >>{
  10856. >>    int i;
  10857. >>    i = -100;
  10858. >>    if (i<sizeof(int)) {
  10859. >>    printf("Small\n");
  10860. >>    } else {
  10861. >>    printf("Large\n");
  10862. >>    }
  10863. >>}
  10864.  
  10865. >>Is this a compiler bug or does sizeof not work the way I expect?
  10866.  
  10867. >>Ken
  10868.  
  10869. In an expression consisting on both int and unsigned, the int is coerced to
  10870. an unsigned.  (That's what my C book says.)
  10871. You will get the desired effect by casting the result of sizeof to an int.
  10872.  
  10873. Ed
  10874.  
  10875.  
  10876. Log-Number: 31288
  10877. Date: Sun, 4 Aug 91 17:39:45 PDT
  10878. From: mottsmth (Jim Mott-Smith)
  10879. Subject: Re: Compiler bug?
  10880.  
  10881. According to K&&R Ansi edition p. 198, the signed int is coerced
  10882. to an unsigned only if the type long int cannot represent all
  10883. unsigned ints.  If it can, a signed comparison is done. Yuck.
  10884.  
  10885. -- Jim M-S
  10886.  
  10887.  
  10888. Log-Number: 31289
  10889. From: mendel (Mendel Rosenblum)
  10890. Subject: Re: Compiler bug? 
  10891. Date: Sun, 04 Aug 91 18:06:13 PDT
  10892.  
  10893.  
  10894. > According to K&&R Ansi edition p. 198, the signed int is coerced
  10895. > to an unsigned only if the type long int cannot represent all
  10896. > unsigned ints.  If it can, a signed comparison is done. Yuck.
  10897. > -- Jim M-S
  10898.  
  10899. Also from K&R Ansi edition p. 135:
  10900.  
  10901. "Strictly, sizeof produces an unsigned integer value whose type, size_t, is
  10902. defined in header <stddef.h>"
  10903.  
  10904. In the sprite stddef.h we have:
  10905.  
  10906.     typedef int size_t;
  10907.  
  10908. This is incorrect for ansi C.
  10909.  
  10910. Note that cc on SunOS and BSD 4.3 have sizeof() return an integer so the program
  10911. prints what Ken expected.  Also, if you compile your program with the 
  10912. -traditional flag with gcc it will treat sizeof() as signed.
  10913.  
  10914.     Mendel
  10915.  
  10916.  
  10917. Log-Number: 31292
  10918. Subject: bug in instrumented lock initialization?
  10919. Date: Tue, 06 Aug 91 17:22:45 PDT
  10920. From: Mike Kupfer <kupfer>
  10921.  
  10922.  
  10923. The "InitDynamic" macros in the kernel sync.h don't initialize the
  10924. listInfo field (for either semaphores or locks), and a quick scan with
  10925. "gid" doesn't show anywhere else where they might get initialized.
  10926.  
  10927. mike
  10928.  
  10929.  
  10930. Log-Number: 31295
  10931. From: mendel (Mendel Rosenblum)
  10932. Subject: Re: decstation compiler bug 
  10933. Date: Wed, 07 Aug 91 11:30:49 PDT
  10934.  
  10935. > Return-Path: eklee
  10936. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  10937. >     id AA535358; Wed, 7 Aug 91 11:11:54 PDT
  10938. > Date: Wed, 7 Aug 91 11:11:54 PDT
  10939. > From: eklee (Edward K. Lee)
  10940. > Message-Id: <9108071811.AA535358@sprite.Berkeley.EDU>
  10941. > To: bugs
  10942. > Subject: decstation compiler bug
  10943. > Some problem having to do with volatile variable declarations.
  10944. > I get a similar error when I try to compile it on dill using cc.
  10945. > It compiles without warnings or errors on sparcstations.
  10946. > Ed
  10947.  
  10948. The Ultrix compiler that we used for the decStation on Sprite does
  10949. not support full ANSI C like gcc does.  Volatile variable declarations are
  10950. part of ANSI C.  The MIPS compiler appears to produced a "illegal pointer
  10951. combination" messages if you try to assign something declared volatile to something
  10952. not declared volatile. Most of your error messages are due to the variable
  10953. "fmt_stream" not be volatile while many of the variables assigned to it are
  10954. volatile.
  10955.  
  10956.     Mendel
  10957.  
  10958.  
  10959. Log-Number: 31296
  10960. Date: Wed, 7 Aug 91 15:36:23 PDT
  10961. From: tve (Thorsten von Eicken)
  10962. Subject: bogus load average on ds5000s?
  10963.  
  10964. On forgery, mayhem, pepper and subversion the load average is >1 but I
  10965. can't figure out why (i.e. no processes seem to use the cpu). Am I
  10966. missing something or is migd confused. Past experience is that if I restart
  10967. migd it shows a reasonable small load average.
  10968.     TvE
  10969.  
  10970.  
  10971. Log-Number: 31301
  10972. From: Fred Douglis <douglis@cs.vu.nl>
  10973. Subject: Re: bogus load average on ds5000s? 
  10974. Date: Thu, 08 Aug 91 10:39:14 +0200
  10975.  
  10976. I don't think it's just the ds5000's -- that bug with migd load
  10977. averages floating up has been around practically forever, and
  10978. unfortunately i never had enough time to invest to fix it.  i did try.
  10979. probably, if anyone looks at it carefully, it'll be some trivial
  10980. embarrassing bug.... 
  10981.  
  10982. Fred
  10983.  
  10984.  
  10985. Log-Number: 31298
  10986. Date: Wed, 7 Aug 91 17:11:06 PDT
  10987. From: tve (Thorsten von Eicken)
  10988. Subject: LFS problems
  10989.  
  10990. [coons catalog] /bin/ls -l ~tve/lib/santillana/mss/pn7y8.1/ID0127*
  10991. /users/tve/lib/santillana/mss/pn7y8.1/ID0127_PN8-27.poem not found
  10992. -rw-rw-r--  1 tve          2609 Nov 11  1990 /users/tve/lib/santillana/mss/pn7y8
  10993. .1/ID0127_PN8-27.troff
  10994.  
  10995.  
  10996. Log-Number: 31300
  10997. Date: Wed, 7 Aug 91 22:09:18 PDT
  10998. From: tve (Thorsten von Eicken)
  10999. Subject: can't rlogin into pepper, but telnet works.
  11000.  
  11001.  
  11002.  
  11003.  
  11004. Log-Number: 31303
  11005. From: mendel (Mendel Rosenblum)
  11006. Subject: netroute bug - can't change enet address of host
  11007. Date: Fri, 09 Aug 91 11:03:21 PDT
  11008.  
  11009.  
  11010. I changed the ethernet address in /etc/spritehosts for treason and ran
  11011. netroute and the route in allspice's kernel did not change. The same
  11012. thing happen with sabotage.  The only way to change the ethernet address
  11013. of a route is to reboot allspice.
  11014.  
  11015.     Mendel
  11016.  
  11017.  
  11018. Log-Number: 31304
  11019. From: mendel (Mendel Rosenblum)
  11020. Subject: Hack in sched mod for register window problem
  11021. Date: Fri, 09 Aug 91 13:26:24 PDT
  11022.  
  11023.  
  11024. So people can use their sparc2 without fear of random processes 
  11025. getting killed I added some code to the sched module to flush
  11026. the regsiter windows before call Proc_SetCurrentProc(). Hopefully
  11027. this code is temporary and can be removed when the 
  11028. window handlers are fixed.  I've included a description of the
  11029. problem at the end of this message.
  11030.  
  11031.     Mendel
  11032.  
  11033. >To: mgbaker
  11034. Subject: Re: Something to watch for 
  11035. In-reply-to: Your message of Sun, 04 Aug 91 22:51:36 -0700.
  11036.              <9108050551.AA472380@sprite.Berkeley.EDU> 
  11037. Date: Tue, 06 Aug 91 18:27:25 PDT
  11038. >From: mendel
  11039.  
  11040. I found the problem that caused the "MachHandleWindowUnderflow: killing process!"
  11041. error.  In Sched_ContextSwitchInt() the code sets proc_RunningProcesses[0] 
  11042. (using Proc_SetCurrentProc) before calling Mach_ContextSwitch().  
  11043. Mach_ContextSwitch() does many save's to spill the windows to the stack.  
  11044. If there is a user window for which the page is nonresident it saves
  11045. the window into the Mach_State structure pointed to by proc_RunningProcesses[0].
  11046. This saves the window into the wrong Mach_State structure; the one that is
  11047. being switched to rather than the structure of the old process.  The underflow 
  11048. error occurs because the handler finds a bogus fp to restore from when the
  11049. process is switched back in.
  11050.  
  11051. This also happens on the sparcStation1.  The extra window on the sparc2 makes
  11052. it much more frequent.  This problem explains the random tcsh going into the
  11053. debugger that ethan reported in March (log message 30757)
  11054.  
  11055.     Mendel
  11056.  
  11057.  
  11058.  
  11059. Log-Number: 31305
  11060. Date: Fri, 9 Aug 91 15:14:58 PDT
  11061. From: theresa@shallot.Berkeley.EDU (Theresa Lessard-Smith)
  11062. Subject: printer problems 533
  11063.  
  11064.  
  11065. Last week, Bob was having troubles printing on lw533,
  11066. and I believe the Sprite folks fixed the problem.
  11067. However, what ever the fix was does not all my psroff
  11068. commands, which worked previously.
  11069.  
  11070. Do you know what was changed and why psroff does not work
  11071. any more?
  11072.  
  11073. Thanks
  11074. Terry
  11075.  
  11076.  
  11077. Log-Number: 31307
  11078. Date: Sun, 11 Aug 91 13:49:32 PDT
  11079. From: ouster (John Ousterhout)
  11080. Subject: Vfork parent returns too soon?
  11081.  
  11082. I haven't checked the kernel code to verify this, but I suspect
  11083. that our implementation of vfork isn't correct.  In particular, it
  11084. appears to me that vfork may be returning in the parent before the
  11085. child has invoked exit or exec.  This was causing problems in Tcl,
  11086. since the parent then modified data structures that were shared
  11087. with the child. The problem went away when I switched to use fork
  11088. instead of vfork.
  11089.                     -John-
  11090.  
  11091.  
  11092. Log-Number: 31308
  11093. Date: Sun, 11 Aug 91 23:29:46 PDT
  11094. From: mottsmth (Jim Mott-Smith)
  11095. Subject: Select looks at 1 too many fd's
  11096.  
  11097.  
  11098. Sprite's select() call looks at 1 too many
  11099. bits in the bit map.  The man page says it will
  11100. look at n bits (0 through n-1), but in fact it looks
  11101. at n+1 bits (0 through n).
  11102.  
  11103. -- Jim M-S
  11104.  
  11105.  
  11106. Log-Number: 31309
  11107. Date: Mon, 12 Aug 91 11:52:58 PDT
  11108. From: shirriff (Ken Shirriff)
  11109. Subject: ipServer in debugger
  11110.  
  11111. Allspice's ipServer was in the debugger, but it got restarted just as I
  11112. was about to gdb it.  Is there some way I can debug it when it dies, or
  11113. is this just a reason for core files instead of debug processes?
  11114. Ken
  11115.  
  11116.  
  11117. Log-Number: 31310
  11118. Date: Mon, 12 Aug 91 17:37:30 -0700
  11119. From: sullivan@postgres.Berkeley.EDU (Mark Sullivan)
  11120. Subject: recvfrom on dgram socket
  11121.  
  11122.  
  11123. Two processes, server and client, are communicating using UDP messages.  
  11124. The message exchange goes on for an arbitrary amount of time, then server
  11125. dies and is restarted.  When server restarts, it takes over the same port
  11126. addresses of its predecessor.   Client sends another message to server
  11127. and server fails on the recvfrom() system that reads in client's message.
  11128.  
  11129. When the recvfrom() fails, errno is set to ECONNREFUSED -- connection
  11130. refused.  This errno is only valid for connect() system calls;  it
  11131. makes no sense for recvfrom to fail because of a refused connection.
  11132. The program contains no calls to connect().  The messages involved
  11133. are all UDP.
  11134.  
  11135. I have been able to reproduce this bug only when going from sabotage 
  11136. to shangri-la (ULTRIX 3.0).  THe program works fine from sabotage to 
  11137. kvetching, works fine from ULTRIX to ULTRIX.  I pretty certain the
  11138. bug has occurred when sabotage was either client or server, but I
  11139. am certain it occurs when sabotage is the server.
  11140.  
  11141. Mark
  11142.  
  11143.  
  11144. Log-Number: 31312
  11145. Date: Tue, 13 Aug 91 11:40:42 PDT
  11146. From: shirriff (Ken Shirriff)
  11147. Subject: Allspice crashed with disk full
  11148.  
  11149. Last night allspice crashed after the disk filled, with a bunch of:
  11150. CreateFile: unwinding errors and then
  11151. Fatal Error: Mem_Free: storage block already free.
  11152.  
  11153.  
  11154. Log-Number: 31317
  11155. From: mendel (Mendel Rosenblum)
  11156. Subject: Re: Allspice crashed with disk full 
  11157. Date: Wed, 14 Aug 91 08:32:58 PDT
  11158.  
  11159.  
  11160. > Date: Tue, 13 Aug 91 11:40:42 PDT
  11161. > From: shirriff (Ken Shirriff)
  11162. > Message-Id: <9108131840.AA797261@sprite.Berkeley.EDU>
  11163. > To: bugs
  11164. > Subject: Allspice crashed with disk full
  11165. > Last night allspice crashed after the disk filled, with a bunch of:
  11166. > CreateFile: unwinding errors and then
  11167. > Fatal Error: Mem_Free: storage block already free.
  11168.  
  11169. There appears to be some very dangerous duplicate use of memory going
  11170. on when a file system fills and file creates are aborted. It appears
  11171. that two handles have the same memory for their in memory copy
  11172. of their Fsdm_FileDescriptor (inode).  This causes the LFS /user6
  11173. to crash the next morning because an inode was written out with
  11174. block pointers pointing at the blocks of another file. We should
  11175. change the CreateFile message to a panic(). The way it is currently, it
  11176. crashes soon or later but also risks corrupting the file system.
  11177.  
  11178.     Mendel
  11179.  
  11180.  
  11181. Log-Number: 31314
  11182. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  11183. Date: Tue, 13 Aug 1991 18:30:16 PDT
  11184. Subject: deleteuser is evil
  11185.  
  11186.  
  11187. The deleteuser program totally screwed up /etc/passwd.  Both /etc/passwd
  11188. and /etc/master.passwd were wrong.  Here's what happened:
  11189.  
  11190. loiter<jhh 131> deleteuser dc
  11191. This program will delete the accounts and erase
  11192. all the files in the home directories.
  11193.  
  11194. Are you sure you want to do this?  (y or n) y
  11195.  
  11196. Remove dc from the aliases file?  (y or n) y
  11197. /sprite/lib/sendmail/RCS/aliases,v  -->  /sprite/lib/sendmail/aliases
  11198. co error: revision 1.182 already locked by tve
  11199.  
  11200. Warning: unable to remove `dc' from the aliases file.
  11201. You'll have to edit the aliases file by hand.
  11202.  
  11203. removing symbolic link: /users/dc
  11204. removing home directory: /user1/dc
  11205. Removing dc from /etc/master.passwd.
  11206. Cannot rename /etc/ptmp.dir: no such file or directory
  11207. Cannot rename /etc/ptmp.pag: no such file or directory
  11208.  
  11209.  
  11210. And here is some of what /etc/passwd contained:
  11211.  
  11212. loiter<jhh 138> more /etc/passwd
  11213. root:DD7T2qZNqsPlU:0:1:(NULL):(NULL):(NULL)
  11214. daemon:*:1:1:(NULL):(NULL):(NULL)
  11215. nobody:*:-2:-2:(NULL):(NULL):(NULL)
  11216. sys:*:2:2:(NULL):(NULL):(NULL)
  11217. bin:*:3:3:(NULL):(NULL):(NULL)
  11218. ftp:*:4:5:(NULL):(NULL):(NULL)
  11219. guest:*:5:5:(NULL):(NULL):(NULL)
  11220. newuser:*:9998:255:(NULL):(NULL):(NULL)
  11221. clear:*:100:100:(NULL):(NULL):(NULL)
  11222. andrew:*:543:155:(NULL):(NULL):(NULL)
  11223. boothe:*:1491:116:(NULL):(NULL):(NULL)
  11224.  
  11225.  
  11226. John
  11227.  
  11228.  
  11229. Log-Number: 31315
  11230. Subject: Re: deleteuser is evil 
  11231. Date: Tue, 13 Aug 91 23:57:28 PDT
  11232. From: Mike Kupfer <kupfer>
  11233.  
  11234. Sigh.  I thought I tested deleteuser using a real user, but maybe I
  11235. somehow botched it.  I would look at the mkpasswd invocation and the
  11236. getpwent() calls as places where trouble might be happening.
  11237.  
  11238. mike
  11239.  
  11240.  
  11241.  
  11242. Log-Number: 31318
  11243. Date: Wed, 14 Aug 91 10:49:08 PDT
  11244. From: sullivan (Mark Sullivan)
  11245. Subject: sysV semaphore bug
  11246.  
  11247.  
  11248. (a) proc A creates a semaphore.  proc B attaches to the same semaphore.
  11249. (b) proc A tries to acquire the semaphore and blocks.  
  11250. (c) proc B releases the semaphore, but A never wakes up.  
  11251.  
  11252. -- checked that the semaphore value was correct.  After B releases the
  11253. semaphore, the value is 1.   Sprite allows B to reacquire the semaphore
  11254. after releasing it.
  11255.  
  11256. -- If A receives a signal after B releases the semaphore, A returns from 
  11257. the semop and acquires the semaphore.  It does not fail with EINTR when
  11258. interrupted by a signal if the semaphore value is 1.
  11259.  
  11260.  
  11261. The following is a program that can be used to reproduce the bug:
  11262.  
  11263. #include <sys/types.h>
  11264. #include <sys/ipc.h>
  11265. #include <sys/sem.h>
  11266. #include <stdio.h>
  11267.  
  11268. /* two arguments: proc_name and key_value */
  11269. main(argc,argv)
  11270. int argc;
  11271. char *argv[];
  11272. {
  11273.   struct sembuf sops;
  11274.   int        c;
  11275.   char        *name = argv[1];
  11276.   int        semid;
  11277.   key_t        key = atoi(argv[2]);
  11278.  
  11279.   /*
  11280.    * must create or attach to semaphore before
  11281.    * acquiring, releasing, or getting the value
  11282.    * of the semaphore.
  11283.    *
  11284.    * Invalid input is ignored.
  11285.    */
  11286.   for (;;) {
  11287.     char str[132];
  11288.  
  11289.     printf(">>>>> "); 
  11290.     fflush(stdout);
  11291.     if (! gets(str))
  11292.       exit(0);
  11293.     switch (*str) {
  11294.  
  11295.       /* create sem with given key */
  11296.     case 'c':
  11297.       semid = semget (key, 1, IPC_EXCL|IPC_CREAT|0666);
  11298.       if (semid < 0) {
  11299.     perror("creating semaphore");
  11300.       }
  11301.       break;
  11302.  
  11303.       /* attach to sem with given key */
  11304.     case 'g':
  11305.       semid = semget(key, 1, 0666);
  11306.       if (semid < 0) {
  11307.     perror("semget existing semaphore");
  11308.       }
  11309.       break;
  11310.  
  11311.       /* print current sem value */
  11312.     case 'v':
  11313.       printf("%s: sem value %d\n",name,
  11314.          semctl(semid, sem, GETVAL, NULL));
  11315.       break;
  11316.  
  11317.       /* acquire semophore */
  11318.     case 'a':
  11319.       sops.sem_num = 0;
  11320.       sops.sem_op = -1;
  11321.       sops.sem_flg = 0;
  11322.       printf("%s: acquiring sema (%d,%d)\n",name,key,semid); 
  11323.       if (semop(semid,&sops,1)<0) {
  11324.     perror("semop acquire");
  11325.       }
  11326.       break;
  11327.  
  11328.       /* destroy */
  11329.     case 'd':
  11330.       if (semctl(semid, 0, IPC_RMID, 0) <0) {
  11331.     perror("destroying semaphore");
  11332.       }
  11333.       break;
  11334.  
  11335.       /* release semaphore */
  11336.     case 'r':
  11337.       sops.sem_num = 0;
  11338.       sops.sem_op = 1;
  11339.       sops.sem_flg = 0;
  11340.       printf("%s: releasing sema (%pd,%d)\n",name,key,semid); 
  11341.       if (semop(semid,&sops,1)<0) {
  11342.     perror("semop release");
  11343.       }
  11344.       break;
  11345.  
  11346.       /* ignore all other inputs */
  11347.     default:
  11348.       continue;
  11349.     }
  11350.     printf("%s: done semop (%d,%d)\n",name,key,semid); 
  11351.   }
  11352. }
  11353.  
  11354.  
  11355. Log-Number: 31320
  11356. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  11357. Date: Wed, 14 Aug 1991 18:08:22 PDT
  11358. Subject: prefix install broken
  11359.  
  11360.  
  11361. It is possible to install a totally bogus prefix, ie a prefix for
  11362. a path that doesn't exist.  In my case I installed "t/t4" instead
  11363. of "/t/t4".  Once done, the prefix cannot be deleted.  I don't see
  11364. why it should be possible to install a prefix that doesn't have a
  11365. corresponding remote link. In any case it should check that the
  11366. prefix starts with "/".
  11367.  
  11368. John
  11369.  
  11370.  
  11371. Log-Number: 31321
  11372. Subject: allspice crash: descriptor map foulup
  11373. Date: Wed, 14 Aug 91 22:07:26 PDT
  11374. From: Mike Kupfer <kupfer>
  11375.  
  11376. Allspice died this evening with
  11377.  
  11378.   Fatal Error: Descriptor map foulup, can't find file 66084 at 127761.
  11379.  
  11380. It was running the 1.096 kernel.  Apparently the filesystem
  11381. (/sprite/src/kernel?) was enough screwed up that John H. had to bring
  11382. up allspice without mounting it.  The core file is 
  11383.  
  11384.   /export1/cores/allspice.descMapFoulup
  11385.  
  11386. Two questions:
  11387.  
  11388. (1) How do we get at the core files, now that they're in /export1?  Do
  11389. we need to add /export1 to the list of filesystems that we import from
  11390. ginger?
  11391.  
  11392. (2) There are core files in /expor1/cores from early June, and
  11393. /export1 is starting to fill up.  I will delete all the June core
  11394. files tomorrow unless someone gives me good reason not to.
  11395.  
  11396. mike
  11397.  
  11398.  
  11399. Log-Number: 31327
  11400. Date: Fri, 16 Aug 91 00:27:29 PDT
  11401. From: kupfer@ginger.Berkeley.EDU (Mike Kupfer)
  11402. Subject: allspice crash: descriptor map foulup
  11403.  
  11404. Allspice died with another
  11405.  
  11406.   Fatal Error: Descriptor map foulup, can't find file 95330 @ 92032
  11407.  
  11408. This is with the 1.096 kernel.  The core file is in
  11409. /home/ginger/cores/allspice.descFoulup2.
  11410.  
  11411. mike
  11412.  
  11413.  
  11414. Log-Number: 31325
  11415. Subject: allspice crash: DMA bus error -> LFS short read
  11416. Date: Thu, 15 Aug 91 12:35:00 PDT
  11417. From: Mike Kupfer <kupfer>
  11418.  
  11419. I was reinitializing a dump tape on allspice when it crashed with
  11420.  
  11421.   Warning: SCSI3#3 DMA bus error
  11422.   Fatal Error: LfsError: on /swap1 status 0x1, LfsReadBytes short read
  11423.  
  11424. We rebooted w/o taking a core file.  Mendel says this has happened to
  11425. him before.
  11426.  
  11427. mike
  11428.  
  11429.  
  11430. Log-Number: 31326
  11431. Subject: dump-related documentation out-of-date
  11432. Date: Thu, 15 Aug 91 12:58:21 PDT
  11433. From: Mike Kupfer <kupfer>
  11434.  
  11435. The documentation for doing dumps has not tracked changes to the dump
  11436. scripts.  The documentation involved includes the man pages for
  11437. dailydump and weeklydump, as well as /sprite/admin/howto/doADump.
  11438.  
  11439. The changes that aren't documented (or are only partially documented)
  11440. include:
  11441.  
  11442. - the use of /sprite/admin/dump/dumpalias as the "dumper" alias, and
  11443.   how/when to change it
  11444.  
  11445. - new arguments to the dailydump script
  11446.  
  11447. - how errors are handled when doing dumps
  11448.  
  11449. - the use of a lock file to disable daily dumps
  11450.  
  11451. mike
  11452.  
  11453.  
  11454. Log-Number: 31328
  11455. Date: Fri, 16 Aug 91 08:15:13 PDT
  11456. From: bmiller (Bob Miller)
  11457. Subject: allspice down this morning
  11458.  
  11459.  
  11460. Allspice was down when I came in this morning...
  11461.  
  11462.  
  11463. Fatal error: Descriptor map foulup, can't find file 25001 at 92032
  11464. Entering debugger with a Interrupt Trap (16) exception at PC 0xf60c397c
  11465.  
  11466.  
  11467. Log-Number: 31330
  11468. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  11469. Date: Fri, 16 Aug 1991 11:18:27 PDT
  11470. Subject: mopd printing error messages
  11471.  
  11472.  
  11473. Mopd is printing the following messages to allspice's syslog:
  11474. [Fri Aug 16 11:02:03 1991]: Out of order function: 10
  11475.  
  11476.  
  11477. I have no idea what this means.
  11478.  
  11479. John
  11480.  
  11481.  
  11482. Log-Number: 31332
  11483. Date: Fri, 16 Aug 91 11:50:09 PDT
  11484. From: shirriff (Ken Shirriff)
  11485. Subject: Re: mopd printing error messages
  11486.  
  11487. I've been having some problems with mopd too.  I suspect that allspice is
  11488. responding too slowly and gets out of step with the client.  This is
  11489. a reason not to run mopd on allspice.
  11490.  
  11491. Ken
  11492.  
  11493.  
  11494. Log-Number: 31333
  11495. Date: Fri, 16 Aug 91 14:22:33 PDT
  11496. From: elm (ethan miller)
  11497. Subject: one of my mail messages (corrupted)
  11498.  
  11499. ------- Start of forwarded message -------
  11500. X-VM-Attributes: [nil nil nil nil nil]
  11501. Status: RO
  11502. Received: from ncar.ucar.edu by sprite.Berkeley.EDU (5.59/1.29)
  11503.     id AA265784; Thu, 15 Aug 91 10:23:56 PDT
  11504. Received: from niwot.scd.ucar.edu by ncar.ucar.EDU (5.65/ NCAR Central Post Office 04/10/90)
  11505.     id AA29210; Thu, 15 Aug 91 11:22:17 MDT
  11506. Received: from elbert.scd.ucar.edu by niwot.scd.ucar.EDU (5.65/ NCAR Mail Server 04/10/90)
  11507.     id AA01015; Thu, 15 Aug 91 11:22:14 MDT
  11508. Date: Thu, 15 Aug 91 11:22:11 MDT
  11509. Message-Id: <9108151722.AA00658@elbert.scd.ucar.edu>
  11510. Received: by elbert.scd.ucar.edu (5.65/ NCAR Mail Client 04/19/90)
  11511.     id AA00658; Thu, 15 Aug 91 11:22:11 MDT
  11512. Subject: Re:  procstat
  11513. >From: djc@niwot.scd.ucar.EDU (Dennis Colarelli)
  11514. To: elm@sprite.Berkeley.EDU
  11515.  
  11516. [Normal mail message deleted]
  11517.  
  11518. [Weirdness starts here:]
  11519. Broadcasting for server of "/sprite/src/kernel"
  11520. Importing "/sprite/src/kernel" from allspice
  11521. <18>Aug 15 11:41:26 sendmail[12c1e]: AA601111: SYSERR: net timeout: connection timed out during greeting wait with sparc.berkeley.edu
  11522. <19>Aug 15 11:41:26 sendmail[12c1e]: pattrsn@sparc.Berkeley.EDU... reply: read error
  11523. 8/15/91 11:41:59 catnip (48) rebooted
  11524. 8/15/91 11:47:58 catnip (48) rebooted
  11525. Broadcasting for server of "/home/ginger/cores"
  11526. Importing "/home/ginger/cores" from lust
  11527. <stat> 8/15/91 12:17:46 allspice (14) RPC timed-out
  11528. get attr of "/usr/spool/mail/pmchen" waiting for recovery
  11529. <close> 8/15/91 12:18:01 allspice (14) RPC timed-out
  11530. <stat> 8/15/91 12:18:07 allspice (14) RPC timed-out
  11531. get attr of "/sprite/lib/cron/crontab" waiting for recovery
  11532. <remove> 8/15/91 12:18:09 allspice (14) RPC timed-out
  11533. remove of "/tmp/Ex35621" waiting for recovery
  11534. <write> 8/15/91 12:18:22 allspice (14) RPC timed-out
  11535. 8/15/91 12:18:22 allspice (14) RmtFile "logfile.analnew" <7,2119> Write-back failed: rpc timeout
  11536. <write> 8/15/91 12:18:28 allspice (14) RPC timed-out
  11537. 8/15/91 12:18:28 allspice (14) RmtFile "/sprite/syslogs/mustard.Berkeley.EDU/syslog.out" <10,2156> Write-back failed: rpc timeout
  11538. RpcDoCall: <write> RPC to roar is hung
  11539. RpcDoCall: <io control> RPC to roar is hung
  11540. 8/15/91 12:22:04 allspice (14) rebooted
  11541. <open> 8/15/91 12:24:12 allspice (14) RPC timed-out
  11542. open of "/hosts/mustard.Berkeley.EDU/netTCP" waiting for recovery
  11543. <close> 8/15/91 12:27:05 allspice (14) RPC timed-out
  11544. <close> 8/15/91 12:27:12 allspice (14) RPC timed-out
  11545. <close> 8/15/91 12:27:18 allspice (14) RPC timed-out
  11546. 8/15/91 12:30:03 allspice (14) rebooted
  11547. <io control> RPC exit 0x70003
  11548. <write> RPC exit 0x40007
  11549. <30>Aug 15 12:30:20 migd[12c18]: Write to global daemon timed out.
  11550. 8/15/91 12:30:21 allspice (14) RmtFile "/sprite/admin/migd/mustard.Berkeley.EDU.log" <10,9568> : stale handle
  11551. 8/15/91 12:30:21 allspice (14) - recovering handles
  11552. 8/15/91 12:30:21 allspice (14) RmtFile "/sprite/admin/migd/mustard.Berkeley.EDU.log" <10,9568> : stale handle
  11553. 8/15/91 12:30:32 allspice (14) Client backing off again from negative ack.
  11554. 8/15/91 12:30:49 allspice (14) Recovery complete 316 handles reopened 1291 failed reopens
  11555. Fsprefix_OpenCheck waiting for recovery
  11556. Fsprefix_OpenCheck ok
  11557. 8/15/91 12:34:55 sedition (68) rebooted
  11558. 8/15/91 12:58:03 raid1 (77) rebooted
  11559. Broadcasting for server of "/user1"
  11560. Importing "/user1" from allspice
  11561. 8/15/91 13:15:23 catnip (48) rebooted
  11562. RpcDoCall: <remove> RPC to allspice is hung
  11563. <remove> RPC ok
  11564. 8/15/91 13:39:50 treason (53) rebooted
  11565. 8/15/91 13:45:24 treason (53) rebooted
  11566. LE ethernet: Received packet with CRC error.
  11567. 8/15/91 13:57:16 joyride (74) rebooted
  11568. PdevWrite: signalFrom daemon Thu Aug 15 15:09:45 1991
  11569. Received: by sprite.Berkeley.EDU (5.59/1.29)
  11570.     id AA69213; Thu, 15 Aug 91 15:07:20 PDT
  11571. Date: Thu, 15 Aug 91 15:07:20 PDT
  11572. >From: root (The Sprite God)
  11573. Message-Id: <9108152207.AA69213@sprite.Berkeley.EDU>
  11574. To: root
  11575. Subject: Files in lost+found
  11576.  
  11577. You have files in the following lost+found directories.  These files were
  11578. recovered during reboot.  Please examine the following directories
  11579. and recover or delete your files.
  11580. //lost+found
  11581. ------- End of forwarded message -------
  11582. Any idea how my syslog could end up in a mail file?  I do use emacs
  11583. to read my mail, but I can't see how I could get the syslog file
  11584. included.  The emacs code for mail reading doesn't even know the
  11585. syslog exists.
  11586.  
  11587. ethan
  11588.  
  11589.  
  11590. Log-Number: 31334
  11591. Date: Fri, 16 Aug 91 16:47:08 PDT
  11592. From: elm (ethan miller)
  11593. Subject: problem with bibtex
  11594.  
  11595. Some of the constants for bibtex are set too low.  In particular, they
  11596. only allow 1000 characters per entry.  If the bibliography entry
  11597. includes an abstract, it will often exceed this limit.  Also, there is
  11598. a limit of 65000 characters in the bibliographies.
  11599.  
  11600. Any chance we can get a "bigger" version of bibtex?  If no one
  11601. objects, I'll work on this myself.
  11602.  
  11603. ethan
  11604.  
  11605.  
  11606. Log-Number: 31336
  11607. Date: Sat, 17 Aug 91 10:12:08 PDT
  11608. From: mendel@ginger.Berkeley.EDU (Mendel Rosenblum)
  11609. Subject: allspice crash - out of memory
  11610.  
  11611. Allspice was down this morning because the kernel ran out of memory. I 
  11612. took a core file "allspice.817".  I belive that the kgcore on ginger
  11613. contains the fix that allows cores of out of memory errors to be
  11614. debugged. 
  11615.  
  11616. One thing I did notice was the compat kernel only allowed the kernel
  11617. to grow to 32 megabytes.  Previous kernels such as the current "new"
  11618. kernel allow upto 40 megabytes.  Does anyone know why this change
  11619. was removed?  
  11620.  
  11621.     Mendel
  11622.  
  11623.  
  11624. Log-Number: 31337
  11625. Date: Sun, 18 Aug 91 12:39:57 PDT
  11626. From: pmchen (Peter M. Chen)
  11627. Subject: discrepancy between df and du
  11628.  
  11629. On /user4, I noticed that we suddenly went from about 50% used to 88%
  11630. used.  In looking at this, I took a du /user4/* (results in
  11631. ~pmchen/tmp/du8.18).  I totalled the sizes at the top level (/user4/*),
  11632. found in ~pmchen/tmp/du8.18.sort and found that only 359 MB were used.
  11633. Df reported that 488 MB were used.
  11634.  
  11635. I forgot to specify the -a option to du, but even so, df is off by
  11636. over 100 MB.
  11637.  
  11638. Pete
  11639.  
  11640.  
  11641. Log-Number: 31345
  11642. Date: Wed, 21 Aug 91 13:10:15 PDT
  11643. From: margo (Margo Seltzer)
  11644. Subject: File system filling prematurely
  11645.  
  11646.  
  11647. /postlfs reports 111% utilization with 69631 blocks used out of 69632
  11648. available.  However, a du on /postlfs returns:
  11649.  
  11650. 1       ./lost+found
  11651. 18533   ./margo/user
  11652. 882     ./margo/kernel
  11653. 19416   ./margo
  11654. 47      ./marks/data/files
  11655. 13      ./marks/data/base/.postDb.6
  11656. 291     ./marks/data/base/.postDb.2
  11657. 1       ./marks/data/base/.postDb.1
  11658. 1839    ./marks/data/base/.postDb.1517
  11659. 2149    ./marks/data/base
  11660. 2197    ./marks/data
  11661. 3458    ./marks
  11662. 22876   .
  11663.  
  11664.  
  11665. - Margo
  11666.  
  11667.  
  11668. Log-Number: 31350
  11669. Subject: L1-N should provide feedback
  11670. Date: Thu, 22 Aug 91 17:19:37 PDT
  11671. From: Mike Kupfer <kupfer>
  11672.  
  11673. Allspice was having a long series of "Reinit recv unit".  I tried
  11674. Break-N a bunch of times, but there was little sign that anything was
  11675. happening, except for a few "receiver overrun" messages that appeared
  11676. some seconds after I hit Break-N.  Given the unreliability of the
  11677. Break-foo mechanism, I think that whatever code is responsible for
  11678. resetting the network should also do some sort of printf to verify
  11679. that it has been invoked.  If the reset takes more than one second, it
  11680. should also tell when it is finished.
  11681.  
  11682. mike
  11683.  
  11684.  
  11685. Log-Number: 31351
  11686. From: mendel (Mendel Rosenblum)
  11687. Subject: Re: L1-N should provide feedback 
  11688. Date: Thu, 22 Aug 91 17:30:42 PDT
  11689.  
  11690.  
  11691. > Allspice was having a long series of "Reinit recv unit".  I tried
  11692. > Break-N a bunch of times, but there was little sign that anything was
  11693. > happening, except for a few "receiver overrun" messages that appeared
  11694. > some seconds after I hit Break-N.  Given the unreliability of the
  11695. > Break-foo mechanism, I think that whatever code is responsible for
  11696. > resetting the network should also do some sort of printf to verify
  11697. > that it has been invoked.  If the reset takes more than one second, it
  11698. > should also tell when it is finished.
  11699. > mike
  11700.  
  11701. The "reinit recv unit" just means that allspice got overrun with packets.
  11702. Resetting the network interface on allspice is a bad idea. There is a 
  11703. bug in the network that hangs the machine for several seconds during
  11704. a net reset. The causes the clients to timeout and go thru recovery 
  11705. with allspice, further overloading the machine.
  11706.  
  11707.     Mendel
  11708.  
  11709.  
  11710.  
  11711. Log-Number: 31352
  11712. Subject: allspice crash: / filled up
  11713. Date: Thu, 22 Aug 91 17:59:28 PDT
  11714. From: Mike Kupfer <kupfer>
  11715.  
  11716. The root partition on allspice filled up, so it crashed with a hashing
  11717. error in the fscache code.  We rebooted without taking a core dump.
  11718.  
  11719. mike
  11720.  
  11721.  
  11722. Log-Number: 31353
  11723. Subject: fluff in root partition
  11724. Date: Thu, 22 Aug 91 19:17:10 PDT
  11725. From: Mike Kupfer <kupfer>
  11726.  
  11727. I was wondering where all the space was going in the root partition.
  11728. While cleaning up (mostly deleting mongo log files in /sprite/admin),
  11729. I noticed some odds and ends that I thought we could get rid of.  They
  11730. won't win back much space, but it would reduce the clutter.
  11731.  
  11732. These just seem old and unused:
  11733.  
  11734.   /dev.old (355KB)
  11735.   /sprite/admin/mig.stats (349KB)
  11736.   /sprite/boot/sun4.md/{alc,atc} (800KB each)
  11737.   /sprite/boot/sun4c.md/brian (700KB)
  11738.   /sprite/cmds.ds3100/{kgdb,kmsg,sh}.old 
  11739.   /sprite/cmds.sun3/{gdb,kgdb,kmsg}.old
  11740.   /sprite/cmds.sun4/{kgdb,kmsg}.old
  11741.   /sprite/doc/ref.ancient
  11742.  
  11743. These seem like they were put there because of some filesystem
  11744. problem, but nobody ever removed them:
  11745.  
  11746.   /tmp/bad
  11747.   /tmp.bad
  11748.   /sprite/BADFILES
  11749.   /sprite/trashed/*
  11750.  
  11751. So can I just nuke all this stuff, or...?
  11752.  
  11753. mike
  11754.  
  11755.  
  11756. Log-Number: 31356
  11757. From: mendel (Mendel Rosenblum)
  11758. Subject: sigcontext missing for decstation
  11759. Date: Fri, 23 Aug 91 12:54:10 PDT
  11760.  
  11761.  
  11762. The definition of struct sigcontext was moved from signal.h into "machSignal.h"
  11763. for each machine type.  The problem is there is no machSignal.h for the
  11764. decstation.
  11765.  
  11766.     Mendel
  11767.  
  11768.  
  11769. Log-Number: 31359
  11770. Subject: load on allspice
  11771. Date: Fri, 23 Aug 91 16:58:35 PDT
  11772. From: Mike Kupfer <kupfer>
  11773.  
  11774. Allspice has gotten a serious case of the slows both this afternoon
  11775. and yesterday afternoon.  The problems eventually went away by
  11776. themselves, but it sure was painful trying to get things done for
  11777. awhile.
  11778.  
  11779. I wonder if having /tmp, /swap1, and /sprite/src/kernel all on
  11780. allspice is partly responsible for the performance problems.
  11781.  
  11782. mike
  11783.  
  11784.  
  11785. Log-Number: 31360
  11786. Date: Fri, 23 Aug 91 17:01:39 PDT
  11787. From: mottsmth (Jim Mott-Smith)
  11788. Subject: Re: load on allspice
  11789.  
  11790. It seems to me the fundamental problem is that we've doubled
  11791. (roughly) all the clients' horsepower (ds3100->ds5000,
  11792. sparc1->sparc2) without any corresponding increase for allspice.
  11793.  
  11794. -- Jim M-S
  11795.  
  11796.  
  11797.  
  11798. Log-Number: 31361
  11799. Subject: allspice crash: DMA bus error -> LFS short read panic
  11800. Date: Sat, 24 Aug 91 21:42:13 PDT
  11801. From: Mike Kupfer <kupfer>
  11802.  
  11803. Allspice died this evening while doing dumps.  Here's what was on the
  11804. console:
  11805.  
  11806.   Warning: SCSI3#3 DMA bus error
  11807.   Fatal Error: LfsError: on /sprite/src/kernel, status 0x1
  11808.     LfsReadBytes short read
  11809.  
  11810. It was running the 1.098 kernel.  We rebooted with the 1.099 kernel.
  11811.  
  11812. mike
  11813.  
  11814.  
  11815. Log-Number: 31362
  11816. Subject: allspice crash(es): SCSI problems?
  11817. Date: Sun, 25 Aug 91 18:31:35 PDT
  11818. From: Mike Kupfer <kupfer>
  11819.  
  11820. When I came in this evening, allspice was down.  The latest couple
  11821. messages on the console were
  11822.  
  11823.   Warning: SCSI3#1 unable to select target SCSI3#1 Target 4 LUN 0
  11824.   8/25/91 11:32:33 broadcast (0) File "(NULL)" <10,0> Write-back
  11825.     failed: cacheable/busy conflict
  11826.   Fatal Error: LfsError: on /scratch4 status 0x1, LfsWriteBytes
  11827.     short write
  11828.  
  11829. The kernel was 1.099, and the core file is
  11830. /home/ginger/cores/allspice.scsiSelect.
  11831.  
  11832. I rebooted allspice from ginger.  Around the time that allspice
  11833. figures out where its root is, there was a very long pause.  I hit
  11834. L1-r and L1-v a couple times but got no response.  Eventually I saw
  11835.  
  11836.   Warning: SCSI3#1 DMA register conflict goof
  11837.   Warning: SCSI3#1 Target 0 LUN 0 reset and current command terminated.
  11838.  
  11839. There then followed a bunch of Ofs complaints about being unable to
  11840. write back various bits of information, and allspice went back into
  11841. the debugger.  I reset allspice (using the reset switch in the back)
  11842. and booted the "new" kernel again.  Should I have saved a core file?
  11843.  
  11844. mike
  11845.  
  11846.  
  11847. Log-Number: 31363
  11848. Subject: more SCSI problems on allspice
  11849. Date: Sun, 25 Aug 91 19:06:35 PDT
  11850. From: Mike Kupfer <kupfer>
  11851.  
  11852. Allspice died again, this time while dumping /scratch4.
  11853.  
  11854.   Warning: SCSFatal Error: LfsError: on /scratch4 status 0x70000, 
  11855.     LfsReadBytes failed
  11856.  
  11857. This is with the 1.099 kernel.  There's a core file in
  11858. /home/ginger/cores/allspice.status70000.
  11859.  
  11860. I tried to reboot "sprite", only to see the system hang.  After
  11861. booting "old" (1.096), I discovered that the 1.098 kernel was
  11862. installed as "compat" and "vmsprite".  Am I confused, or is the
  11863. correct name "sprite" and not "vmsprite"?  Also, how hard would it be
  11864. to change the disk boot program to say "``sprite'' not found" instead
  11865. of just hanging?
  11866.  
  11867. mike
  11868.  
  11869. P.S.  /home/ginger/cores is getting full again.
  11870.  
  11871.  
  11872. Log-Number: 31365
  11873. From: mendel (Mendel Rosenblum)
  11874. Subject: Re: more SCSI problems on allspice 
  11875. Date: Sun, 25 Aug 91 19:41:13 PDT
  11876.  
  11877.  
  11878. > I tried to reboot "sprite", only to see the system hang.  After
  11879. > booting "old" (1.096), I discovered that the 1.098 kernel was
  11880. > installed as "compat" and "vmsprite".  Am I confused, or is the
  11881. > correct name "sprite" and not "vmsprite"?  Also, how hard would it be
  11882. > to change the disk boot program to say "``sprite'' not found" instead
  11883. > of just hanging?
  11884.  
  11885.  
  11886. Well, when I was doing the kernel swap there was no "sprite" in /allspiceA.
  11887. The current "sprite" was named "vmsprite" there.  I just made the old
  11888. "compat" kernel "vmsprite".  I suspect this was done because there is
  11889. code in the disk boot program to default to "vmsprite" if no filename
  11890. is specified.  Anyway, it probably doesn't work.
  11891.  
  11892.     Mendel
  11893.  
  11894.  
  11895. Log-Number: 31367
  11896. Date: Mon, 26 Aug 91 01:01:14 -0700
  11897. From: dlong@cse.ucsc.edu
  11898. Subject: Re:  more SCSI problems on allspice
  11899.  
  11900. > Allspice died again, this time while dumping /scratch4.
  11901. >   Warning: SCSFatal Error: LfsError: on /scratch4 status 0x70000, 
  11902. >     LfsReadBytes failed
  11903. > This is with the 1.099 kernel.  There's a core file in
  11904. > /home/ginger/cores/allspice.status70000.
  11905. > I tried to reboot "sprite", only to see the system hang.  After
  11906. > booting "old" (1.096), I discovered that the 1.098 kernel was
  11907. > installed as "compat" and "vmsprite".  Am I confused, or is the
  11908. > correct name "sprite" and not "vmsprite"?  Also, how hard would it be
  11909. > to change the disk boot program to say "``sprite'' not found" instead
  11910. > of just hanging?
  11911.  
  11912. Hmmm, I thought I already reported that, but maybe I just sent a note
  11913. to Mendel and Mary.  Anyway, there is a bug in the fs code that I
  11914. had to fix to get diskboot it to work for the sun4c, and I guess the
  11915. fix never made it to the sun4 diskboot.  Just do a diff between
  11916. sunprom/fs.c and diskBoot.OpenProm/fs.c and you'll see the bug fix.
  11917.  
  11918. dl
  11919.  
  11920. > mike
  11921. > P.S.  /home/ginger/cores is getting full again.
  11922.  
  11923.  
  11924. Log-Number: 31370
  11925. Date: Mon, 26 Aug 91 21:50:47 PDT
  11926. From: dlong@dogwood.ucsc.edu (Dean Long)
  11927. Subject: bug in as for sparc
  11928.  
  11929. You might think "set 4,%o1" and "mov 4,%o1" would do the same thing,
  11930. but they don't.  The "set" pseudo-instruction *always* turns into
  11931. two instructions: a "sethi" followed by an "or".  The "mov"
  11932. pseudo-instruction turns into a single "or" instruction, ignoring
  11933. all but the low 12 bits of the constant.
  11934.  
  11935. dl 
  11936.  
  11937.  
  11938. Log-Number: 31374
  11939. Date: Tue, 27 Aug 91 16:21:49 PDT
  11940. From: ouster (John Ousterhout)
  11941. Subject: Mail wedged
  11942.  
  11943. Mail doesn't seem to be getting into Allspice.  Can someone unwedge
  11944. it?  Thanks.
  11945.                     -John-
  11946.  
  11947.  
  11948. Log-Number: 31375
  11949. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  11950. Date: Wed, 28 Aug 1991 11:26:39 PDT
  11951. Subject: allspice reboot problems due to prefix
  11952.  
  11953.  
  11954. Allspice crashed this morning due to an LFS bug (I'll leave it to
  11955. Ken or Jim to give us more details on that).  We had problems
  11956. rebooting allspice due to the newly installed "prefix" command.
  11957. The new prefix stats a remote link to make sure it exists when you
  11958. install a prefix.  Unfortunately, it appears that stat follows the
  11959. link, which doesn't exist because it hasn't been installed yet.
  11960. Prefix should be modified to only stat the remote link itself, not
  11961. what it points to.  I think the call to stat has to be changed to
  11962. a call to Fs_GetAttributes, but that's just a guess.
  11963.  
  11964. John
  11965.  
  11966.  
  11967.  
  11968. Log-Number: 31376
  11969. Date: Wed, 28 Aug 91 18:05:58 -0700
  11970. From: margo@postgres.berkeley.edu (Margo Seltzer)
  11971. Subject: makedepend hanging
  11972.  
  11973.  
  11974. I've been rebuilding kernel modules on decstations (a
  11975. variety of machines), and periodically makedepend will
  11976. hang seemingly infinitely (it hung for 2 hours this
  11977. afternoon while running on pepper).  Killing it and
  11978. rerunning it seems to work.
  11979.  
  11980. I had this problem about 2 months ago and it went away,
  11981. only reappearing very recently.
  11982.  
  11983. - M
  11984.  
  11985.  
  11986. Log-Number: 31377
  11987. Date: Thu, 29 Aug 91 08:34:12 PDT
  11988. From: ouster (John Ousterhout)
  11989. Subject: Re: makedepend hanging
  11990.  
  11991. I've also noticed makes hanging from time to time.  When this
  11992. happens I've found that I can control-Z and continue them, and
  11993. it unwedges them.  Could this be related in some way to the
  11994. new compatibility kernel, with its new way of handling signals
  11995. and migration?
  11996.                     -John-
  11997.  
  11998.  
  11999. Log-Number: 31380
  12000. Subject: file hole isn't zero filled
  12001. Date: Thu, 29 Aug 91 12:04:04 PDT
  12002. From: Mike Kupfer <kupfer>
  12003.  
  12004. The man page for lseek says that if you seek beyond the end of a file
  12005. and write to it, the intervening hole will be logically zero-filled.
  12006. (That is, if you read from the hole, you'll get all zeroes.)  
  12007.  
  12008. In Sprite this only partly works.  If you read the hole while the file
  12009. is still open, you get zeros.  If you close the file, reopen it, and
  12010. read the hole, you get garbage.
  12011.  
  12012. mike
  12013.  
  12014.  
  12015.  
  12016. Log-Number: 31388
  12017. From: mendel (Mendel Rosenblum)
  12018. Subject: Re: file hole isn't zero filled
  12019. Date: Fri, 30 Aug 91 11:33:57 PDT
  12020.  
  12021.  
  12022. > In Sprite this only partly works.  If you read the hole while the file
  12023. > is still open, you get zeros.  If you close the file, reopen it, and
  12024. > read the hole, you get garbage.
  12025. > mike
  12026.  
  12027. There are several bugs causing this. Most of the problems stem from 
  12028. delayed writes, attribute caching, and the Sprite implementation of 
  12029. attributes.  On the Sprite file server attributes such as the lastByte
  12030. (ie size) of a file are kept in two locations and updated by two different
  12031. calls.  The "lastByte" value stored in the cacheInfo structure are updated
  12032. when a client closes a file. During the close RPC the attributes that are
  12033. cached on the client such as the access time, modify time, and lastByte
  12034. are updated in the server cache.  The "lastByte" is also kept in the
  12035. Fsdm_FileDescriptor on disk.   The in-memory copy of this structure is
  12036. updated when writes are done to the file.  That is when write RPCs make
  12037. it over to the file server the lastByte in the Descriptor gets updated so
  12038. it includes this block.  What happens in the common case is when the 
  12039. file is closed the lastByte in the cacheInfo get sets to the correct 
  12040. value while the one in the Fsdm_FileDescriptor is still -1 (size == 0).   
  12041. The Fsdm_FileDescriptor get updated when the delayed writes happen.  
  12042.  
  12043. The garbage gets generated due to a bug in the BlockRead procedure 
  12044. for both OFS and LFS (Not surprising since LFS is just a copy of the
  12045. OFS code for this condition.)   The bug happens when a read occurs 
  12046. at an offset pass the lastByte (in the Fsdm_FileDescriptor) of the file.  
  12047. Both storage managers just return SUCCESS and FS_BLOCK_SIZE bytes transferred
  12048. and don't zero by cache block.  I put a patch in both OFS and LFS to 
  12049. zero the cache blocks so the applications with get zeros rather than
  12050. garbage.  There is also a bug in the fscache module that returns the
  12051. wrong thing when this happens. I fixed that too.
  12052.  
  12053.  
  12054.     Mendel
  12055.  
  12056.  
  12057. Log-Number: 31386
  12058. Date: Fri, 30 Aug 91 08:51:37 PDT
  12059. From: ouster (John Ousterhout)
  12060. Subject: Lust crash
  12061.  
  12062. Lust was in the debugger when I came in this morning:
  12063.  
  12064. LfsError: on /pcs/vlsi status 0x1, LfsReadBytes short read
  12065.  
  12066. I rebooted it.
  12067.                     -John-
  12068.  
  12069.  
  12070. Log-Number: 31387
  12071. From: mendel (Mendel Rosenblum)
  12072. Subject: Re: Lust crash 
  12073. Date: Fri, 30 Aug 91 11:32:41 PDT
  12074.  
  12075.  
  12076. > Subject: Lust crash
  12077. > Lust was in the debugger when I came in this morning:
  12078. > LfsError: on /pcs/vlsi status 0x1, LfsReadBytes short read
  12079. > I rebooted it.
  12080. >                     -John-
  12081.  
  12082. Was there any other message before this one? This means that
  12083. LFS did a read that returned SUCCESS did not read as many bytes
  12084. as requested.  If there is a message before this that looks something
  12085. like:  
  12086.     DevRawBlockDevRead: error 0x0 inLength NN at offset NN outLength XXX
  12087.  
  12088. then it probably was an LFS error that tried to read outside the block
  12089. range of the disk partition.  I checked the file system /pcs/vlsi and
  12090. there are no bogus block pointer that would cause the type of error.
  12091.  
  12092. Other other possibility is that there is a problem in the new SCSI or
  12093. dev module code.  Too bad we can't kgcore decstations.
  12094.  
  12095.     Mendel
  12096.  
  12097.  
  12098. Log-Number: 31393
  12099. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  12100. Date: Tue, 3 Sep 1991 12:34:00 PDT
  12101. Subject: crash due to exec from pfs
  12102.  
  12103.  
  12104. My machine crashed when it tried to reclaim a segment that was used
  12105. previously as a text segment for something I ran from the sww.
  12106. Evidently the sticky segment stuff doesn't work correctly with 
  12107. pseudo-filesystems.  The sticky segment ends up with a dangling reference
  12108. to a file handle that has been reused.  When the kernel tries to reclaim
  12109. the segment it barfs on the contents of the file handle. 
  12110.  
  12111. John
  12112.  
  12113.  
  12114. Log-Number: 31396
  12115. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  12116. Date: Wed, 4 Sep 1991 17:48:31 PDT
  12117. Subject: installall of scripts broken
  12118.  
  12119.  
  12120. If one does a "pmake installall" for a script it should be installed for
  12121. all machine types.  Currently it will install for some types, but not
  12122. others.  On a decstation it will install for the decstation and sun3,
  12123. but not sun4.   Here is a transcript of my latest attempt.
  12124.  
  12125.  
  12126. John
  12127.  
  12128. loiter<jhh 117> pmake installall
  12129. --- installsun3 ---
  12130. pmake -l 'INSTALLDIR=/local/cmds'  -k TM=sun3 install
  12131. --- install ---
  12132. Updating: /local/cmds.sun3/scvs
  12133. --- installds3100 ---
  12134. pmake -l 'INSTALLDIR=/local/cmds'  -k TM=ds3100 install
  12135. --- install ---
  12136. Updating: /local/cmds.ds3100/scvs
  12137. loiter<jhh 118> pmake install TM=sun4
  12138. --- .BEGIN ---
  12139. you cannot compile for a sun4 on this machine
  12140. exit 1
  12141. *** Error code 1
  12142. --- install ---
  12143. Updating: /local/cmds.sun4/scvs
  12144.  
  12145.  
  12146. Log-Number: 31397
  12147. Subject: Re: installall of scripts broken 
  12148. Date: Wed, 04 Sep 91 18:04:31 PDT
  12149. From: Mike Kupfer <kupfer>
  12150.  
  12151.  
  12152. The sun4 ld that runs on DECstations is broken (unless somebody has
  12153. fixed it since I looked at it in early May).  I thought it would be
  12154. simpler to disable all sun4 stuff for DECstations, rather than just
  12155. disabling ld.  I'm willing to be outvoted, though.
  12156.  
  12157. Of course, the real solution is to fix ld.  Sad to say, it looked
  12158. pretty swamp-like to me, with bits and pieces of various source trees
  12159. glued together in some arcane fashion.  Maybe the thing to do is start
  12160. from scratch, using the most recent ld release from the FSF.
  12161.  
  12162. mike
  12163.  
  12164.  
  12165. Log-Number: 31401
  12166. Date: Fri, 6 Sep 91 08:17:08 PDT
  12167. From: bmiller (Bob Miller)
  12168. Subject: allspice down
  12169.  
  12170.  
  12171. Allspice was down when I came in this morning...
  12172.  
  12173.  
  12174. Fatal Error: LfsError: on /scratch1 status 0x1, LfsReadBytes short read
  12175. Entering debugger with a Interrupt Trap (16) exception at PC 0xf60ca9dc
  12176.  
  12177.  
  12178. Log-Number: 31403
  12179. From: mendel (Mendel Rosenblum)
  12180. Subject: Re: signal.h: cannot find machSignal.h 
  12181. Date: Fri, 06 Sep 91 09:50:22 PDT
  12182.  
  12183. >
  12184. > Subject: signal.h: cannot find machSignal.h
  12185. > When I compile a file which includes signal.h, I get complaints about not
  12186. > being able to find machSignal.h
  12187. > - M
  12188.  
  12189. The problem appears to be that signal.h now includes machSignal.h and 
  12190. machSignal.h is in /sprite/lib/include/$(TM).md/sys which is not in 
  12191. the normal include path for the c compiler. Until this is fix you might
  12192. be able to compile things by adding a -I/sprite/lib/include/machine/sys 
  12193. to your CFLAGS.
  12194.  
  12195.     Mendel
  12196.  
  12197.  
  12198. Log-Number: 31405
  12199. From: mendel (Mendel Rosenblum)
  12200. Subject: Re: signal.h: cannot find machSignal.h 
  12201. Date: Fri, 06 Sep 91 10:18:32 PDT
  12202.  
  12203.  
  12204. > I thought that the solution we agreed upon for this problem was
  12205. > to put in symbolic links for machine-dependent include files.
  12206. > Can someone do this for machSignal.h?
  12207. >                     -John-
  12208.  
  12209. I couldn't remember what we agreed on.  I created a symbolic link 
  12210. named machSignal.h in /sprite/lib/include that points to
  12211. machine/sys/machSignal.h.  Someone speak up if this is not the
  12212. right thing.  
  12213.  
  12214.     Mendel
  12215.  
  12216.  
  12217. Log-Number: 31407
  12218. Subject: bogus process locking in Proc_NewProc?
  12219. Date: Fri, 06 Sep 91 18:55:23 PDT
  12220. From: Mike Kupfer <kupfer>
  12221.  
  12222. ProcGetUnusedPCB returns a locked PCB entry.  Proc_NewProc then
  12223. promptly unlocks it with
  12224.  
  12225.     procPtr->genFlags         = procType;
  12226.  
  12227. (rather than ORing in the process type).  Am I missing something here,
  12228. or is this a bug?
  12229.  
  12230. mike
  12231.  
  12232.  
  12233. Log-Number: 31408
  12234. Subject: raid1 crash: level 15 Memory Interrupt
  12235. Date: Fri, 06 Sep 91 19:31:32 PDT
  12236. From: Mike Kupfer <kupfer>
  12237.  
  12238. raid1 died about an hour ago with 
  12239.  
  12240.   Memory Interrupt (level 15) (31) exception at PC 0xf60d910c
  12241.  
  12242. Mendel started looking at it but then it freaked out, so I rebooted it.
  12243.  
  12244. mike
  12245.  
  12246.  
  12247. Log-Number: 31410
  12248. From: mendel (Mendel Rosenblum)
  12249. Subject: Bug in scsi disk error reporting
  12250. Date: Sat, 07 Sep 91 14:36:44 PDT
  12251.  
  12252.  
  12253. With all the shuffling in the device module the scsi disk code lost the
  12254. ability to detect and report errors. The problem is that when DiskDoneProc
  12255. in devSCSIDisk.c is called and there is an error the SCSI sense data is
  12256. not passed correctly to the DiskError() routine.  Instead the DiskError()
  12257. routine uses the sense buffer that has added to the ScsiDisk structure 
  12258. which doesn`t contain the correct data.
  12259.  
  12260. The disk /dev/rsd01c on allspice (/scratch1 file system) has a media error
  12261. at sector 233107 that had been crashing allspice but it was not ever reported
  12262. in the syslog.
  12263.  
  12264.     Mendel
  12265.  
  12266.  
  12267. Log-Number: 31413
  12268. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  12269. Date: Sat, 7 Sep 1991 16:58:16 PDT
  12270. Subject: Re: Bug in scsi disk error reporting
  12271.  
  12272. I'll take responsibility for this one.  When I was working on the
  12273. exb8500 driver I cleaned the scsi stuff up somewhat.  I didn't feel
  12274. like totally rewriting the dev module, so the HBA code uses the
  12275. old way of handling the scsi stuff.  Unfortunately I botched the
  12276. interaction between the two a bit.  The real solution is to rewrite
  12277. the HBA stuff, but I don't want to do that right now because the
  12278. kernel is in a state of flux.  Instead I've added a bcopy that
  12279. should fix the problem.
  12280.  
  12281. John
  12282.  
  12283.  
  12284. Log-Number: 31414
  12285. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  12286. Date: Sat, 7 Sep 1991 17:40:26 PDT
  12287. Subject: dumps did not complete
  12288.  
  12289.  
  12290. I've noticed that the dumps did not complete on Friday morning or
  12291. Saturday morning.  Further investigation revealed that a "skip to
  12292. end of data" command sent to the device is not completing. I'm unable
  12293. to get into the machine room to look at the tape drive because my
  12294. card key is non-functioning.  I think I'll set up a drive in 608-2
  12295. so Ken can do the full dumps.
  12296.  
  12297. John
  12298.  
  12299.  
  12300. Log-Number: 31415
  12301. Date: Sun, 8 Sep 91 14:10:53 PDT
  12302. From: shirriff (Ken Shirriff)
  12303. Subject: Allspice lfs crash
  12304.  
  12305. Allspice crashed with LfsSetSegUsage called on clean segment (1083)
  12306. The core is in vmcore.lfs
  12307.  
  12308.  
  12309. Log-Number: 31419
  12310. Date: Tue, 10 Sep 91 00:38:15 PDT
  12311. From: shirriff (Ken Shirriff)
  12312. Subject: /hosts/raid1/dev is poison
  12313.  
  12314. The directory /hosts/raid1/dev is poison: an ls in there will wedge up,
  12315. and the dumps die in there.  Thus, I can't dump /.  Since I've wedged
  12316. up the exabyte on exabyte and murder, I don't know if I can dump anything
  12317. else either.
  12318.  
  12319.  
  12320. Log-Number: 31420
  12321. From: mendel (Mendel Rosenblum)
  12322. Subject: /boot problem - No permission checking on ftruncate
  12323. Date: Tue, 10 Sep 91 11:00:13 PDT
  12324.  
  12325.  
  12326. The ftruncate will let an user truncate any open object regardless of 
  12327. access modes or object type.  It is possible to ftruncate a file opened
  12328. in read-only mode.  Even worse, it is possible to ftruncate an open 
  12329. directory.  This messes up the file system.  I suspect that this is
  12330. what murder did to /boot.  When allspice reboots the contents of
  12331. "/boot? will reappear in lost+found.
  12332.  
  12333.     Mendel
  12334.  
  12335.  
  12336. Log-Number: 31421
  12337. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  12338. Date: Tue, 10 Sep 1991 11:41:02 PDT
  12339. Subject: new dump.new
  12340.  
  12341.  
  12342. I've fixed one bug with dump.new.  If you specified the "-r" or "-s" option,
  12343. and the tape was in the old format the new label would be written in
  12344. the old format as well.  Unfortunately the old format does not work
  12345. on the new drives, so dump would die after dumping one file system.
  12346. I've installed a new dump.new that fixes this problem. 
  12347.  
  12348. I still don't know about the reported problems with the tape drives
  12349. hanging.  I've been unable to repeat the problem.
  12350.  
  12351. John
  12352.  
  12353.  
  12354. Log-Number: 31423
  12355. Date: Tue, 10 Sep 91 17:50:42 PDT
  12356. From: pmchen (Peter M. Chen)
  12357. Subject: consistency problems?
  12358.  
  12359. I've been getting some weird results with edit-compile cycles.
  12360.  
  12361. I edited a file (changing a #define constant), issued pmake,
  12362. then re-ran.  The compile of the right file actually took place.  But,
  12363. when I re-ran, it ran like the old binary.
  12364.  
  12365. When I re-recompiled, it worked fine.
  12366.  
  12367. This whole cycle was repeated twice.
  12368.  
  12369. Pete
  12370.  
  12371. ps. this was on mustard, a ds5000.  The offending directory was in
  12372.     ~/bench/specWl.  I changed the constant CAPACITYEXPANSION in specWl.h
  12373.     from 2 to 4.
  12374.  
  12375.  
  12376. Log-Number: 31427
  12377. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  12378. Date: Wed, 11 Sep 1991 23:22:02 PDT
  12379. Subject: file system not attached during boot
  12380.  
  12381.  
  12382. When allspice was rebooted the /sprite/src/kernel filesystem was not
  12383. attached.  The "prefix" command is in its bootcmds, yet it didn't
  12384. do anything.  All other file system appear to have attached properly.
  12385. I issued the prefix command by hand and it attached without any errors.
  12386. I didn't find a prefix process in the debug state or anything, so I'm
  12387. not sure what happened to it.
  12388.  
  12389. John
  12390.  
  12391.  
  12392. Log-Number: 31429
  12393. Date: Thu, 12 Sep 91 17:46:00 PDT
  12394. From: shirriff (Ken Shirriff)
  12395. Subject: cc bug
  12396.  
  12397. Compiling the following program puts cc (actually ccom) into the debugger
  12398. on a ds3100.  (Admittedly, the program is in error, but going into the
  12399. debugger seems harsh.)
  12400.  
  12401. main()
  12402. double
  12403. f(c,x)
  12404. double c,x;
  12405. {
  12406.     return c*x*(1-x);
  12407. }
  12408. {
  12409.     double c;
  12410.     double v;
  12411.     for (c=0;c<3;c+=.01) {
  12412.     v = f(f(f(c,.5),.5),.5);
  12413.     if (v>.48 && v<.52) {
  12414.         printf("%f,%f\n", f(f(f(c,.5),.5),.5));
  12415.     }
  12416.     }
  12417. }
  12418.  
  12419.  
  12420. Log-Number: 31431
  12421. Date: Thu, 12 Sep 91 23:56:15 PDT
  12422. From: shirriff@ginger.Berkeley.EDU (Ken Shirriff)
  12423. Subject: Allspice crash: LfsWriteBytes
  12424.  
  12425. Allspice crashed with:
  12426. SCSI3#0 can't select SCSI3#0 Target 5 LUN 0
  12427. LfsError on /pcs Status 0x1, LfsWriteBytes short write
  12428. The core is in vmcore.short
  12429.  
  12430.  
  12431. Log-Number: 31432
  12432. Date: Fri, 13 Sep 91 08:52:30 PDT
  12433. From: bmiller (Bob Miller)
  12434. Subject: allspice crash
  12435.  
  12436.  
  12437. allspice was down when I came in this morning...
  12438.  
  12439. Fri Sep 13 02:00:00
  12440. Warning: SCSI3#0 cant select SCSI3#0 Target 5 LUN 0
  12441.     "
  12442.     "
  12443.     "
  12444. Fatal Error: Lfs Error: on /tmp.old status 0x1, LfsWriteBytes short write
  12445. Entering debugger with a Interrupt Trap (16) exception at PC 0xf60ca9dc
  12446.  
  12447.  
  12448. core dump is in vmcore.allspice.crash.9-13
  12449.  
  12450.  
  12451. Log-Number: 31433
  12452. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  12453. Date: Fri, 13 Sep 1991 09:07:20 PDT
  12454. Subject: wrong device resets bus
  12455.  
  12456.  
  12457. Both of allspice's recent crashes happened when it tried
  12458. to access a non-existent device on hba 0.  I created
  12459. a tape device for larceny, but screwed up so the
  12460. server was localhost.  When allspice tried to do the dumps
  12461. it would crash.  We should probably get rid of the
  12462. frequent resets in the scsi driver.
  12463.  
  12464. John
  12465.  
  12466.  
  12467. Log-Number: 31437
  12468. From: mendel (Mendel Rosenblum)
  12469. Subject: Re: Allspice reboot 
  12470. Date: Fri, 13 Sep 91 12:28:00 PDT
  12471.  
  12472.  
  12473. > Oops, John's message reminded me that I forgot to report the Allspice
  12474. > crash this morning.  Here are the last few lines from the console:
  12475. > Entering debugger ...
  12476. > I took a core dump and left it in ginger:/home/ginger/cores/vmcore.13Sep91.
  12477. >                     -John-
  12478.  
  12479. The crash was a Level 15 interrupt caused by a cache writeback error.  The
  12480. bad address was 0xfff141f0 in context 0.  This is a mapping area for
  12481. VDMA used by the scsi HBAs.  I have no idea what would cause this error
  12482. to happen.  At the time dump.new was dumping the file "bsdtraces" from
  12483. /user6.
  12484.  
  12485.  
  12486.     Mendel
  12487.  
  12488.  
  12489. Log-Number: 31442
  12490. Date: Fri, 13 Sep 91 15:40:52 PDT
  12491. From: ouster (John Ousterhout)
  12492. Subject: Sendmail problem?
  12493.  
  12494. There's a sendmail process on tyranny that seems to be looping
  12495. infinitely;  every 5 seconds it prints out a message on the syslog
  12496. like the following:
  12497.  
  12498. <18>Sep 13 15:40:16 sendmail[34b10]: NOQUEUE: SYSERR: getrequests: accept: operation not supported on socket
  12499.  
  12500. Does anyone know what this means or what can be done to unwedge the
  12501. sendmail process?
  12502.                     -John-
  12503.  
  12504.  
  12505. Log-Number: 31447
  12506. Date: Sat, 14 Sep 91 17:23:52 PDT
  12507. From: shirriff (Ken Shirriff)
  12508. Subject: gprof broken
  12509.  
  12510. If I compile a program with -pg on the sun4 to use the profiler, the program
  12511. dies on execution with a segmentation violation in monstartup.
  12512.  
  12513. Ken
  12514.  
  12515.  
  12516. Log-Number: 31448
  12517. From: mendel (Mendel Rosenblum)
  12518. Subject: Re: gprof broken 
  12519. Date: Sat, 14 Sep 91 17:46:43 PDT
  12520.  
  12521.  
  12522. > If I compile a program with -pg on the sun4 to use the profiler, the program
  12523. > dies on execution with a segmentation violation in monstartup.
  12524. > Ken
  12525.  
  12526. The bug is in the Unix compatibility stuff.  When linking with the -pg 
  12527. switch a special startup code get executed (entry gstart). 
  12528. This doesn't match the check in proc/sun4c2.md/procMach.c so it thinks
  12529. it is a Unix binary and sets up the heap segment incorrectly. The bug
  12530. is in a "hack" in procMach.c
  12531.  
  12532.     Mendel
  12533.  
  12534. ps.   The code in procMach.c is an insult to the definition of a "hack".
  12535.       If someone changes something in the first couple of instruction 
  12536.       of the startup code for a user program it will quit working.  
  12537.  
  12538.  From sun4c.md/machMach.c
  12539.  
  12540.     /*
  12541.      * The following few lines are total hack.  The idea is to look at
  12542.      * the startup code to see if it was a Sprite-compiled file, or
  12543.      * a Unix-compiled file.
  12544.      */
  12545.  
  12546.     sizeRead = 4*sizeof(int);
  12547.     status = Fs_Read(filePtr, (char *)data,
  12548.     execPtr->entry-PROC_CODE_LOAD_ADDR(*execPtr), &sizeRead);
  12549.     if (status != SUCCESS) {
  12550.     printf("READ failed\n");
  12551.     return(PROC_BAD_AOUT_FORMAT);
  12552.     }
  12553. #ifdef sun3
  12554.     if (data[0]==0x241747ef && data[1]==0x42002 &&
  12555.         (data[2]==0x52807204 || data[2]==0x5280223c) &&
  12556.         ((data[3]&0xffff0000)==0x4eb90000 || data[3]==4)) {
  12557. #else
  12558.     /* Normal sun4 startup code */
  12559.     if ((data[0]==0xac10000e && data[1]==0xac05a060 &&
  12560.         data[2]==0xd0058000 && data[3]==0x9205a004) ||
  12561.     /* Profiled sun4 startup code */
  12562.         (data[0]==0xbc100000 && data[1]==0x11000008 &&
  12563.         data[2]==0x13000208 && data[3]==0x400038df)) {
  12564. #endif
  12565.     type = TYPE_SPRITE;
  12566.     } else {
  12567.     type = TYPE_UNIX;
  12568. #ifdef sun3
  12569.     /*
  12570.      * Special check for emacs, which has weird startup code.
  12571.      */
  12572.     if (data[0]==0x4e560000 && data[1]==0x61064e5e &&
  12573.         data[2]==0x4e750000) {
  12574.         type = TYPE_SPRITE;
  12575.     }
  12576. #endif
  12577.  
  12578.  
  12579.  
  12580. Log-Number: 31456
  12581. From: mendel (Mendel Rosenblum)
  12582. Subject: Re: rdate fails on clean kernel 
  12583. Date: Mon, 16 Sep 91 14:16:08 PDT
  12584.  
  12585.  
  12586. > Subject: Re: rdate fails on clean kernel
  12587. > Cc: bugs@sprite.Berkeley.EDU, jhh@sprite.Berkeley.EDU
  12588. > I think leaving it broken is a bad idea.  Not all programs depend on
  12589. > the kernel being broke.  Some expect the kernel to behave properly.
  12590. > dl
  12591.  
  12592. I agree that leaving it broken is a bad idea but fixing it requires
  12593. recompiling everything that uses the library routine "connect()". 
  12594. By just changing the kernel and not recompiling everything we break
  12595. lots of stuff and spend the next year finding programs that fail
  12596. for unknown reasons and start working again when recompiled.  Since
  12597. we are changing over to implement connect() as a real system call
  12598. which will require recompiling all the code that uses connect() 
  12599. anyway, I think we should leave it broken for now.  If we really
  12600. want to fix it now we should add a new correctly working system call
  12601. for select and leaving the old broken one for backward compatility.
  12602.  
  12603.     Mendel
  12604.  
  12605.  
  12606.  
  12607. Log-Number: 31458
  12608. Subject: can't build kgdb.sun4 for sun3
  12609. Date: Mon, 16 Sep 91 17:49:50 PDT
  12610. From: Mike Kupfer <kupfer>
  12611.  
  12612. If you do a "pmake sun3" in /sprite/src/cmds/kgdb.sun4, you get the
  12613. following error (at least if you do it on a sun4).
  12614.  
  12615. --- sun3.md/dep.o ---
  12616. In file included from dep.c:42:
  12617. /sprite/src/lib/include/sun4.md/sys/core.h:51: field `c_fparegs' has incomplete type
  12618.  
  12619. The problem complaint is from the definition of "struct core":
  12620.  
  12621. struct core {
  12622.     int    c_magic;        /* Corefile magic number */
  12623.     int    c_len;            /* Sizeof (struct core) */
  12624.     struct    regs c_regs;        /* General purpose registers */
  12625.     struct     exec c_aouthdr;        /* A.out header */
  12626.     int    c_signo;        /* Killing signal, if any */
  12627.     int    c_tsize;        /* Text size (bytes) */
  12628.     int    c_dsize;        /* Data size (bytes) */
  12629.     int    c_ssize;        /* Stack size (bytes) */
  12630.     char    c_cmdname[CORE_NAMELEN + 1]; /* Command name */
  12631. #ifdef sun3
  12632.     /* This is from the old core.h (C) 1985, but gdb still wants
  12633.        this stuff, and I don't think any other sprite program
  12634.        uses core.h */
  12635.     struct     fp_status c_fpstatus;    /* External FPP state, if any */
  12636.     struct  fpa_regs c_fparegs;    /* FPA registers, if any */
  12637.     int    c_pad[CORE_PADLEN];    /* see comment above */
  12638. #else    
  12639. #ifdef FPU
  12640.     struct    fpu c_fpu;        /* external FPU state */
  12641. #endif
  12642.     int    c_ucode;        /* Exception no. from u_code */
  12643. #endif    
  12644. };
  12645.  
  12646. The definition of "struct fp_status" comes from <sun4.md/reg.h>, but
  12647. that file doesn't have "struct fpa_regs".
  12648.  
  12649. mike
  12650.  
  12651.  
  12652.  
  12653. Log-Number: 31459
  12654. Subject: ds3100 kmsg doesn't compile
  12655. Date: Mon, 16 Sep 91 18:11:15 PDT
  12656. From: Mike Kupfer <kupfer>
  12657.  
  12658. --- ds3100.md/kmsg.o ---
  12659. rm -f ds3100.md/kmsg.o
  12660. cc  -g3 -O -Dds3100 -Dsprite -Uultrix  -I. -Ids3100.md -I. -I/sprite/lib/include -I/sprite/lib/include/ds3100.md -c ds3100.md/kmsg.c -o ds3100.md/kmsg.o
  12661. ccom: Error: ds3100.md/kmsg.c, line 46: syntax error
  12662.       static  Dbg_Request     *requestPtr = (Dbg_Request *) requestBuffer;
  12663.       --------------------------^
  12664.  
  12665. Plus a zillion other errors propagated from this one.
  12666.  
  12667. mike
  12668.  
  12669.  
  12670. Log-Number: 31460
  12671. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  12672. Date: Mon, 16 Sep 1991 22:50:29 PDT
  12673. Subject: exec from pfs fails
  12674.  
  12675.  
  12676. I'm not sure of the status of doing an exec() from a pfs so perhaps this
  12677. bug has been fixed already.  I'm running 1.099 on a sun4c.  Cd into
  12678. /home/ginger/sprite/users/jhh and do the following:
  12679.  
  12680. while(1)
  12681. ./date
  12682. end
  12683.  
  12684. The kernel will eventually die with the following:
  12685. Fatal Error: Fs_RetSegPtr, bad stream type <big number> 
  12686.  
  12687. Here is the stack:
  12688.  
  12689. #1  0xf602e0d4 in Fs_GetSegPtr (...) (...)
  12690. #2  0xf60cc2e0 in CleanSegment (...) (...)
  12691. #3  0xf60cc174 in DeleteSeg (...) (...)
  12692. #4  0xf60cba14 in Vm_SegmentNew (...) (...)
  12693. #5  0xf60daae0 in Vm_MmapInt (...) (...)
  12694. #6  0xf60ce7b0 in Vm_MmapStub (...) (...)
  12695. #7  0xf601256c in MachUnixSyscallTrap ()
  12696.  
  12697.  
  12698. John
  12699.  
  12700.  
  12701. Log-Number: 31461
  12702. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  12703. Date: Mon, 16 Sep 1991 23:07:10 PDT
  12704. Subject: waitpid() crashes kernel
  12705.  
  12706.  
  12707. Sprite doesn't have waitpid() in its C library (it probably should but
  12708. that's another story).  On a whim I copied an executable off ultrix
  12709. and sunos that uses waitpid to see what happens.  I ran my test on
  12710. the 1.099 program. Here is the program:
  12711.  
  12712. #include <stdio.h>
  12713. #include <sys/wait.h>
  12714.  
  12715. main(argc, argv) 
  12716.     int        argc;
  12717.     char    **argv;
  12718. {
  12719.     int pid;
  12720.     int    status;
  12721.     int ret;
  12722.  
  12723.     pid = fork();
  12724.     if (pid == 0) {
  12725.     sleep(1);
  12726.     printf("Child exiting\n");
  12727.     exit(1);
  12728.     } else {
  12729.     ret = waitpid(pid, &status, 0);
  12730.     printf("ret = 0x%x, status = 0x%x\n", ret, status);
  12731.     }
  12732. }
  12733.  
  12734. On a Decstation waitpid() returns -1, indicating that an error occurred.
  12735. This seems reasonable.  On a Sun it's as if the waitpid never happened.
  12736. The subsequent printf never produces any output, although the child's
  12737. printf works fine.  If you run this program over and over the kernel
  12738. will eventually die with:
  12739.  
  12740. Fatal Error: invalid segNum
  12741.  
  12742. Here's the backtrace:
  12743.  
  12744. #0  panic (__builtin_va_alist=-166911630) (sysPrintf.c line 220)
  12745. #1  0xf60d47c0 in VmMach_AllocCheck (...) (...)
  12746. #2  0xf60caafc in VmPageFlush (...) (...)
  12747. #3  0xf60d07f0 in Vm_DeleteSharedSegment (...) (...)
  12748. #4  0xf6092434 in ProcExitProcess (...) (...)
  12749. #5  0xf6091ce4 in Proc_ExitInt (...) (...)
  12750. #6  0xf6091bbc in Proc_Exit (...) (...)
  12751. #7  0xf609f47c in Proc_ExitStub (...) (...)
  12752. #8  0xf601256c in MachUnixSyscallTrap ()
  12753. #9  0x1e083318 in ?? ()
  12754.  
  12755. I put a core file in /sprite/src/kernel/sprite/core.waitpid.sun4c.
  12756.  
  12757. John
  12758.  
  12759.  
  12760. Log-Number: 31462
  12761. From: mendel (Mendel Rosenblum)
  12762. Subject: exec from pfs fails and waitpid() crashes kernel
  12763. Date: Tue, 17 Sep 91 09:45:12 PDT
  12764.  
  12765.  
  12766.  
  12767. >I'm not sure of the status of doing an exec() from a pfs so perhaps this
  12768. >bug has been fixed already.  I'm running 1.099 on a sun4c.  Cd into
  12769. >/home/ginger/sprite/users/jhh and do the following:
  12770. >
  12771. >while(1)
  12772. >./date
  12773. >end
  12774. >
  12775. >The kernel will eventually die with the following:
  12776. >Fatal Error: Fs_RetSegPtr, bad stream type <big number> 
  12777.  
  12778. This is the bug in sticky segments pointing to pdev handles are have been
  12779. freed.  JMS added some code to fix this problem. You should try repeating
  12780. the test on the "clean" kernel. 
  12781.  
  12782.  
  12783. >On a Decstation waitpid() returns -1, indicating that an error occurred.
  12784. >This seems reasonable.  On a Sun it's as if the waitpid never happened.
  12785. >The subsequent printf never produces any output, although the child's
  12786. >printf works fine.  If you run this program over and over the kernel
  12787. >will eventually die with:
  12788. >
  12789. >Fatal Error: invalid segNum
  12790.  
  12791. This is a bug in the shared segment implementation.  The basic problem
  12792. is that VmCore data structure and algorithms assume that a page can
  12793. be in only one segment that is mapped at the same address is all processes
  12794. address spaces. Shared segments break this assumption and cause the
  12795. kernel to panic.   SunOS dynamically linked binaries make heavy use
  12796. of shared segments and trigger this bug rapidly.  At the last Sprite
  12797. meeting Ken said he was still working on a fix for this.
  12798.  
  12799.  
  12800.     Mendel
  12801.  
  12802. ps.  John, just for fun you should try running a dynamically linked binary
  12803.      from a PFS. We can take bets on which bug will crash the kernel first.
  12804.  
  12805.  
  12806. Log-Number: 31463
  12807. From: mendel (Mendel Rosenblum)
  12808. Subject: nfsmount in the debugger on lust
  12809. Date: Tue, 17 Sep 91 10:11:16 PDT
  12810.  
  12811.  
  12812. Lust was hanging rpcs because the nfsmount for /home/ginger/sprite was in
  12813. the debugger. I debugged it a little bit found that is died at line 358
  12814. of nfsName.c.  The code looks a little bogus:
  12815.  
  12816.      streamPtr = Pfs_OpenConnection(nfsPtr->pfsToken, fileIDPtr,
  12817.              (16 * 1024) + 128,    /* request buffer size */
  12818.              0, NULL,        /* no read buffer */
  12819.              FS_READABLE | FS_WRITABLE, &nfsFileService);
  12820.      /*
  12821.       * Enable write-behind.  We'd like to let a writer overlap its writes.
  12822.       * The request buffer is large enough for 2 8K block writes.  Using
  12823.       * write-behind increases the write bandwidth from 9k/sec to 40k/sec.
  12824.       */
  12825. 358>     if (Fs_IOControl(streamPtr->streamID, IOC_PDEV_WRITE_BEHIND,
  12826.          sizeof(int), &writeBehind, 0, NULL) != 0) {
  12827.         fprintf(stderr, "IOC_PDEV_WRITE_BEHIND failed\n");
  12828.      }
  12829.      if (streamPtr != (Pdev_Stream *)NULL) {
  12830.          streamPtr->clientData = (ClientData)fileIDPtr;
  12831.      } else {
  12832.          status = EINVAL;
  12833.      }
  12834.  
  12835. It looks like Pfs_OpenConnection() returned NULL. I suspect that the
  12836. IOControl should be after the check for NULL and not before it.
  12837.  
  12838.     Mendel
  12839.  
  12840.  
  12841. Log-Number: 31464
  12842. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  12843. Date: Tue, 17 Sep 1991 10:34:35 PDT
  12844. Subject: invalid system calls don't produce error message
  12845.  
  12846.  
  12847. Sprite doesn't support some of the Ultrix system calls (anything
  12848. above 171).  The old kernels used to print out a warning message
  12849. when you tried to use an unsupported system call.  The new
  12850. binary compatibility stuff just returns EINVAL.  I think we
  12851. should continue to print out the warning since lots of programs
  12852. are less than perfect in checking for errors. 
  12853.  
  12854. John
  12855.  
  12856.  
  12857. Log-Number: 31466
  12858. From: mendel (Mendel Rosenblum)
  12859. Subject: malloc() inside MASTER_LOCK in VmMach_PageValidate
  12860. Date: Tue, 17 Sep 91 13:19:51 PDT
  12861.  
  12862.  
  12863. ------- Forwarded Message
  12864.  
  12865. To: mottsmth
  12866. cc: jhh
  12867. Subject: Re: No such luck... 
  12868. In-reply-to: Your message of Tue, 17 Sep 91 12:56:55 -0700.
  12869.              <9109171956.AA88080@sprite.Berkeley.EDU> 
  12870. Date: Tue, 17 Sep 91 13:17:07 PDT
  12871. >From: mendel
  12872.  
  12873. > Return-Path: mottsmth
  12874. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  12875. >     id AA88080; Tue, 17 Sep 91 12:56:55 PDT
  12876. > Date: Tue, 17 Sep 91 12:56:55 PDT
  12877. > From: mottsmth (Jim Mott-Smith)
  12878. > Message-Id: <9109171956.AA88080@sprite.Berkeley.EDU>
  12879. > To: jhh, mendel
  12880. > Subject: No such luck...
  12881. > while (1)
  12882. > ./date
  12883. > end
  12884. > dies on the clean kernel also.
  12885. > Trying to reproduce it up here gives me a completely
  12886. > different stack trace from the one jhh reported:
  12887. >     #1  0xf60ad11c in IdleLoop (...) (...)
  12888. >     #2  0xf60acdb8 in Sched_ContextSwitchInt (...) (...)
  12889. >     #3  0xf60b29f0 in SyncEventWaitInt (...) (...)
  12890. >     #4  0xf60b120c in Sync_SlowLock (...) (...)
  12891. >     #5  0xf60b0eec in Sync_GetLock (...) (...)
  12892. >     #6  0xf60c8bbc in Vm_RawAlloc (...) (...)
  12893. >     #7  0xf607a7bc in MemChunkAlloc (...) (...)
  12894. >     #8  0xf607ab44 in malloc (...) (...)
  12895. >     #9  0xf60cea94 in VmMach_PageValidate (...) (...)
  12896. >     #10 0xf60c14ec in VmPageValidateInt (...) (...)
  12897. >     #11 0xf60c2d2c in FinishPage (...) (...)
  12898. >     #12 0xf60c298c in Vm_PageIn (...) (...)
  12899. >     #13 0xf600e810 in MachPageFault (...) (...)
  12900. >     #14 0xf6012834 in MachHandlePageFault ()
  12901. > I'll see what I can do...
  12902. > -- Jim M-S
  12903.  
  12904. The problem is that VmMach_PageValidate grabs a MASTER_LOCK() and then
  12905. tries to do a malloc().  This is illegal because malloc() can context
  12906. switch.  This is a different bug from the pfs execute stuff. It is
  12907. only triggered when running something in Unix compatibility.  To test
  12908. the pfs problem I'd suggest copying the Sprite "date" binary. 
  12909.  
  12910.     Mendel
  12911.  
  12912. ------- End of Forwarded Message
  12913.  
  12914.  
  12915.  
  12916. Log-Number: 31467
  12917. Subject: race condition in Proc_Detach?
  12918. Date: Tue, 17 Sep 91 14:59:15 PDT
  12919. From: Mike Kupfer <kupfer>
  12920.  
  12921.  
  12922. Proc_Detach doesn't lock the process before setting its termReason,
  12923. termStatus, and termCode.  (Contrast this with Proc_SuspendProcess,
  12924. which does lock the process.)  Am I missing something, or is there a
  12925. potential race between Proc_Detach and, say, Proc_ResumeProcess?
  12926.  
  12927. mike
  12928.  
  12929.  
  12930. Log-Number: 31468
  12931. Subject: cruft in Proc_Lock
  12932. Date: Tue, 17 Sep 91 16:01:51 PDT
  12933. From: Mike Kupfer <kupfer>
  12934.  
  12935. Why is Sync_AddPrior called twice in Proc_Lock()?
  12936.  
  12937. mike
  12938.  
  12939. P.S.  Many of the CLEAN_LOCK ifndef's in procTable.c are unnecessary. 
  12940. Sync_RecordMiss, Sync_RecordHit, Sync_StoreDbgInfo, and Sync_AddPrior
  12941. are all defined to be no-op macros if CLEAN_LOCK is defined.
  12942.  
  12943.  
  12944. Log-Number: 31470
  12945. From: mendel (Mendel Rosenblum)
  12946. Subject: sun4 loader from hell returns
  12947. Date: Wed, 18 Sep 91 16:57:05 PDT
  12948.  
  12949.  
  12950. Last night at 18:50 the sun4 loader from hell was installed.  Any linking
  12951. done for the sparc machine type between last night and this afternoon
  12952. at around 16:50 should be redone.  The broken binary in /sprite/cmds.sun4/ld
  12953. was replaced with the one in /sprite/cmds.sun4.old/ld.
  12954.  
  12955.     Mendel
  12956.  
  12957.  
  12958. Log-Number: 31472
  12959. Date: Thu, 19 Sep 91 15:11:36 PDT
  12960. From: ouster (John Ousterhout)
  12961. Subject: Migration and suspension
  12962.  
  12963. Twice this afternoon I've noticed that pmakes stopped in the middle
  12964. of a "ranlib" phase with the ranlib in SUSP state.  In both cases
  12965. I was able to ^Z the pmake, then "fg" it successfully.  However,
  12966. I'm wondering if this is happening because of eviction.
  12967.  
  12968.                     -John-
  12969.  
  12970.  
  12971. Log-Number: 31473
  12972. From: mendel (Mendel Rosenblum)
  12973. Subject: VM/X bug - dev ds5000 module problem
  12974. Date: Fri, 20 Sep 91 18:41:08 PDT
  12975.  
  12976. John and I found the problem that caused the X server of the ds5000 not
  12977. to work with the clean kernel. The problem was that devGraphics.c was passing
  12978. the wrong size (the size of a pointer rather that what it pointed at)
  12979. to VmMach_UserMap when mapping the event queue into the server's address
  12980. space.  Since it always maps one page the code only broke when the
  12981. event queue spanned a page boundary.   The clean kernel moved things
  12982. around enough so this happened.
  12983.  
  12984.     Mendel
  12985.  
  12986.  
  12987. Log-Number: 31475
  12988. Subject: memory smash in shell script code in DoExec
  12989. Date: Sat, 21 Sep 91 00:00:10 PDT
  12990. From: Mike Kupfer <kupfer>
  12991.  
  12992. >From inspection, it looks like there is an ugly memory smash in DoExec.
  12993. Here are a few lines from the local variables:
  12994.  
  12995.     int                    extraArgs = 0;
  12996.     char                *shellArgPtr;
  12997.     char                *extraArgsArray[2];
  12998.  
  12999. Here is some code that uses them:
  13000.  
  13001.         if (userArgsPtr->argPtrArray == (char **) NIL) {
  13002.         extraArgsArray[0] = fileName;
  13003.         index = 1;
  13004.         } else {
  13005.         index = 0;
  13006.         }
  13007.         for (i = index; extraArgs > 0; i++, extraArgs--) {
  13008.         if (extraArgs == 2) {
  13009.             extraArgsArray[i] = shellArgPtr;
  13010.         } else {
  13011.             extraArgsArray[i] = fileName;
  13012.         }
  13013.         }
  13014.         extraArgsArray[i] = (char *) NIL;
  13015.  
  13016. extraArgs has a value of 1 or 2, depending on whether shellArgPtr
  13017. points to something useful (2 if it does).  (Side note: you can bet
  13018. I'm rewriting this for the Sprite server to be more straightforward.)
  13019.  
  13020. Now it looks like at the very least shellArgPtr is getting overwritten
  13021. by the NIL assignment at the end.   Furthermore, if the given
  13022. argPtrArray is ever NIL, extraArgs gets clobbered as well. 
  13023. Fortunately, neither of these variables is used again in the function.
  13024.  
  13025. mike
  13026.  
  13027.  
  13028. Log-Number: 31476
  13029. Subject: allspice crash: read from clean segment
  13030. Date: Sat, 21 Sep 91 11:13:19 PDT
  13031. From: Mike Kupfer <kupfer>
  13032.  
  13033. Allspice died just as I was going home, so I didn't hang around to
  13034. send mail about it.  It died with
  13035.  
  13036.   LfsOkToRead read from clean segment
  13037.  
  13038. The kernel was 1.099, and the core file is
  13039. /home/ginger/cores/allspice.readCleanSeg.
  13040.  
  13041. mike
  13042.  
  13043.  
  13044. Log-Number: 31477
  13045. Date: Sat, 21 Sep 91 15:55:14 PDT
  13046. From: shirriff (Ken Shirriff)
  13047. Subject: Allspice crashes
  13048.  
  13049. Allspice crashed several times this afternoon with:
  13050. LfsOkToRead read from clean segment.
  13051. I rebooted and it quickly crashed again; I continued and it quickly crashed
  13052. again; so I debugged it and determined /scratch1 is the culprit.
  13053. I unmounted /scratch1 until someone can figure out how to fix it.
  13054.  
  13055. Ken
  13056.  
  13057.  
  13058. Log-Number: 31482
  13059. Subject: wait3 incompatibility
  13060. Date: Sun, 22 Sep 91 00:30:54 PDT
  13061. From: Mike Kupfer <kupfer>
  13062.  
  13063. If one calls wait3 with the WNOHANG flag set and there aren't any
  13064. children that have died, wait3 is supposed to return 0.  Intead it
  13065. returns -1 and sets errno to EWOULDBLOCK.
  13066.  
  13067. mike
  13068.  
  13069.  
  13070. Log-Number: 31484
  13071. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  13072. Date: Sun, 22 Sep 1991 19:00:25 PDT
  13073. Subject: clean ds5000 kernel has Fs_Select problems
  13074.  
  13075.  
  13076. X applications from the sww cannot be executed on a ds5000 running
  13077. the clean kernel.  Try "/usr/sww/X11/bin/xclock".   It will just
  13078. sit there until you type ^C (SIGINT), then the following is printed in
  13079. the syslog:
  13080.  
  13081. Wait (socket.c): Fs_Select failed.
  13082. Wait (socket.c): Fs_Select returned 0 ready
  13083. 2: connect (getsockopt)
  13084.  
  13085.  
  13086. It works just fine on the new kernel.
  13087.  
  13088. John
  13089.  
  13090.  
  13091. Log-Number: 31489
  13092. From: mendel (Mendel Rosenblum)
  13093. Subject: Re: raid1 hangs on sync 
  13094. Date: Tue, 24 Sep 91 14:56:00 PDT
  13095.  
  13096.  
  13097. > When I run "sync" on raid1, it hangs indefinitely.  I don't think it's
  13098. > just writing out all dirty blocks.
  13099. > I'd like to reboot raid1.  Any objections if I do that now (I'll send out a
  13100. > broadcast message before I do it)?
  13101. > Pete
  13102.  
  13103. This is a hardware problem involving the disk rvj41.
  13104.  
  13105.     Mendel
  13106.  
  13107.  
  13108. Log-Number: 31487
  13109. From: Fred Douglis <douglis@cs.vu.nl>
  13110. Subject: rlogin pdev problem
  13111. Date: Tue, 24 Sep 91 13:54:01 +0200
  13112.  
  13113. I logged into arson and after a couple of minutes got the following:
  13114.  
  13115. ReplyWithData couldn't send pdev reply; status "address given by the user for a
  13116. system call was bad"
  13117.  
  13118. Anyone know what it means?
  13119.  
  13120. Fred
  13121.  
  13122.  
  13123. Log-Number: 31488
  13124. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  13125. Date: Tue, 24 Sep 1991 12:07:57 PDT
  13126. Subject: NIL swapFilePtr
  13127.  
  13128.  
  13129. Loiter crashed running the clean kernel when it tried to do an Fs_PageCopy
  13130. and the srcStreamPtr was NIL.  The swap file for the segment was NIL,
  13131. and VmCopySwapPage passed it to Fs_PageCopy anyway. Here is the stack.
  13132. (srcStreamPtr is actually NIL.  The debugger is lying about its value).
  13133.  
  13134. John
  13135.  
  13136.  
  13137. #0  Fs_PageCopy (srcStreamPtr=(struct Fs_Stream *) 0x80238f44, destStreamPtr=(struct Fs_Stream *) 0xc021bc04, offset=-1071092488, numBytes=-2145155956) (fsPageOps.c line 215)
  13138. 215         srcHdrPtr = srcStreamPtr->ioHandlePtr;
  13139. #1  0x800f9bb4 in VmCopySwapPage (srcSegPtr=(struct Vm_Segment *) 0x8023848c, virtPage=65540, destSegPtr=(struct Vm_Segment *) 0xc81cfecc) (vmServer.c line 455)
  13140. #2  0x800f0e5c in COW (virtAddrPtr=(struct Vm_VirtAddr *) 0xc81cff24, ptePtr=(unsigned int *) 0xc02869cc, isResident=0, deletePage=1) (vmCOW.c line 1015)
  13141. #3  0x800effa0 in VmCOWDeleteFromSeg (segPtr=(struct Vm_Segment *) 0x8, firstPage=-2147107340, lastPage=-1071455180) (vmCOW.c line 404)
  13142. #4  0x800f7c60 in DeleteSeg (segPtr=(struct Vm_Segment *) 0x0) (vmSeg.c line 824)
  13143. #5  0x800f7be8 in Vm_SegmentDelete (segPtr=(struct Vm_Segment *) 0x8023848c, procPtr=(struct Proc_ControlBlock *) 0x0) (vmSeg.c line 792)
  13144. #6  0x800c1180 in ProcExitProcess (exitProcPtr=(struct Proc_ControlBlock *) 0x80148680, reason=1, status=0, code=0, thisProcess=1) (procExit.c line 605)
  13145. #7  0x800c0a68 in Proc_ExitInt (reason=1, status=0, code=0) (procExit.c line 270)
  13146. #8  0x800c0978 in Proc_Exit (status=-1071849236) (procExit.c line 206)
  13147. #9  0x800336d0 in MachSysCall () (ds5000.md/machAsm.s line 1659)
  13148.  
  13149.  
  13150. Log-Number: 31490
  13151. Subject: missing status messages
  13152. Date: Tue, 24 Sep 91 22:03:03 PDT
  13153. From: Mike Kupfer <kupfer>
  13154.  
  13155. The following Sprite status codes don't have messages for them in
  13156. lib/c/etc/status.c:
  13157.  
  13158.   RPC_NACK_ERROR
  13159.   RPC_FS_NO_PREFIX
  13160.  
  13161. I didn't really understand from looking at the sources what these
  13162. status codes mean, so I didn't put strings in myself.
  13163.  
  13164. mike
  13165.  
  13166. P.S.  Is there any reason why the tables in status.c have their sizes
  13167. hardcoded in?  Why not use sizeof to figure out how big the various
  13168. arrays are?
  13169.  
  13170.  
  13171. Log-Number: 31492
  13172. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  13173. Date: Wed, 25 Sep 1991 10:56:29 PDT
  13174. Subject: dump doesn't deal with crashes
  13175.  
  13176.  
  13177. The dump program doesn't deal with crashes very gracefully.  The
  13178. new tape drives do not support update-in-place so our old method
  13179. of doing things won't work.  The new drives have a feature to skip
  13180. to the end of data.  Unfortunately, EOD is a mark written on the
  13181. tape when you reposition the tape after a write, or write a filemark
  13182. (I think).  If you crash during a dump, EOD is not written, so a
  13183. subsequent skip-to-EOD will fail when it hits blank tape.  In this
  13184. case dump should back up a file and continue dumping.  Unfortunately
  13185. there are many other reasons why you might not find the EOD mark
  13186. (like a media error), in which case dump should just bail out.
  13187. Right now all the dump program will get back from the kernel is
  13188. DEV_HARD_ERROR if EOD is not found, so dump can't differentiate
  13189. between the two cases.  Currently dump will just bail out.  This
  13190. means that you must put a new tape in the drive if the machine with
  13191. the tape drive crashes during the dump.
  13192.  
  13193. John
  13194.  
  13195.  
  13196.  
  13197. Log-Number: 31499
  13198. Date: Thu, 26 Sep 91 00:13:02 PDT
  13199. From: shirriff@ginger.Berkeley.EDU (Ken Shirriff)
  13200. Subject: LfsSetSegUsage crash
  13201.  
  13202. Allspice crashed after cleaning /swap1 with
  13203. LfsSetSegUsage called on a clean segment.  We put
  13204. a core in allspice.lfssetsegusage and continued it.
  13205. It seems to work, although it printed a warning
  13206. about numbytes = -4006.
  13207.  
  13208.  
  13209. Log-Number: 31500
  13210. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  13211. Date: Thu, 26 Sep 1991 00:15:22 PDT
  13212. Subject: Re: LfsSetSegUsage crash
  13213.  
  13214.  
  13215. The segment in question was #731. And the warning message was that
  13216. activeBytes was -4006.
  13217.  
  13218. John
  13219.  
  13220.  
  13221. Log-Number: 31505
  13222. Date: Thu, 26 Sep 91 18:33:51 PDT
  13223. From: pmchen (Peter M. Chen)
  13224. Subject: lpd startup problems
  13225.  
  13226. When I reboot my machine (mustard, ds5000) with the "new" kernel, lpd dies
  13227. with a bad TLB fault.  This is repeatable.
  13228.  
  13229. Pete
  13230.  
  13231.  
  13232. Log-Number: 31507
  13233. Date: Thu, 26 Sep 91 19:34:06 PDT
  13234. From: pmchen (Peter M. Chen)
  13235. Subject: lpd startup problems
  13236.  
  13237. It still doesn't work.  I tried restarting it using
  13238.  
  13239. lpc
  13240. restart pulla (I did this as root)
  13241.  
  13242. and got 
  13243.  
  13244. <51>Sep 26 19:32:28 lpd[92c3d]: Lock error, pid 0x45118
  13245. Bad user TLB fault in process 92c3d: pc=0 addr=0
  13246. <51>Sep 26 19:32:28 lpd[62c34]: Lock error, pid 0x45114
  13247. Bad user TLB fault in process 62c34: pc=0 addr=0
  13248.  
  13249.  
  13250. Also, lpc complained with:
  13251. /hosts/mustard.Berkeley.EDU/dev/printer: no such file or directory
  13252.  
  13253.  
  13254. Pete
  13255.  
  13256.  
  13257. Log-Number: 31508
  13258. Subject: Re: lpd startup problems 
  13259. Date: Thu, 26 Sep 91 20:14:16 PDT
  13260. From: Mike Kupfer <kupfer>
  13261.  
  13262.  
  13263. Hmm.  Well, from looking at the lpd sources, what's happening is that
  13264. lpd is trying to acquire the lock file for the printer queue.  It
  13265. fails and tries to verify that the daemon holding the lock is still
  13266. around.  Well, the pid that it's reading from the lock file is for a
  13267. process on hoot (even though this is all happening on mustard), so of
  13268. course it can't find that process.  It complains ("Lock error...") and
  13269. forces a segmentation violation by trying to jump to location 0.
  13270.  
  13271. Maybe there's a bug in file locking in the new kernel...?
  13272.  
  13273. mike
  13274.  
  13275.  
  13276. Log-Number: 31511
  13277. From: mendel (Mendel Rosenblum)
  13278. Subject: raid module not installed 
  13279. Date: Fri, 27 Sep 91 11:30:02 PDT
  13280.  
  13281.  
  13282. The raid module was not install during the last kernel install so the newly
  13283. built sun4 kernel (1.100) uses an old version of it.  This means that the
  13284. raid module being used on raid1 is not "clean".  Hopefully this
  13285. inconsistency will not trash anything.
  13286.  
  13287.     Mendel
  13288.  
  13289.  
  13290. Log-Number: 31517
  13291. Date: Sun, 29 Sep 91 16:05:44 -0700
  13292. From: dlong@cse.ucsc.edu
  13293. Subject: initsprite staying around
  13294.  
  13295. initsprite seems to stay around if bootcmds exits normally, but if
  13296. bootcmds exits abnormally, initsprite goes away.  This is on a sun4c.
  13297.  
  13298. dl
  13299.  
  13300.  
  13301. Log-Number: 31522
  13302. Date: Tue, 1 Oct 91 12:40:09 PDT
  13303. From: margo (Margo Seltzer)
  13304. Subject: Disk space disappearing
  13305.  
  13306.  
  13307. /postdev is an old sprite file system.  It shows the following disk utilization:
  13308.  
  13309. Prefix              Server         KBytes       Used      Avail    % Used
  13310. /postdev            piracy         309808     278827          0     100%
  13311.  
  13312. However, a du from /postdev shows:
  13313. piracy.Berkeley.EDU [523]: du
  13314. 8       ./lost+found
  13315. 168951  ./margo
  13316. 168971  .
  13317. piracy.Berkeley.EDU [523]:
  13318.  
  13319. and an ls shows:
  13320.  
  13321. piracy.Berkeley.EDU [526]: ls -sR
  13322. total 9
  13323.    8 lost+found/           1 margo/
  13324.  
  13325. lost+found:
  13326. total 0
  13327.  
  13328. margo:
  13329. total 168950
  13330.    1 RESULTS             108 teller                6 txnerror.log
  13331. 159404 account             1 testit*            7732 txnlog
  13332.   48 branch                1 testit.out
  13333. 1648 history               1 tp1@
  13334.  
  13335. I believe that this occurs when processes with mapped files exit unexpectedly,
  13336. but I haven't seen a correlation between the amount of space missing and the
  13337. maximum size of the shared regions.
  13338.  
  13339. - M
  13340.  
  13341.  
  13342. Log-Number: 31538
  13343. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  13344. Date: Thu, 3 Oct 1991 12:17:15 PDT
  13345. Subject: rpcstat -trace broken
  13346.  
  13347.  
  13348. rpcstat -trace produces gibberish.  I remember agreeing to leave the
  13349. rpc tracing in the kernel.
  13350.  
  13351. John
  13352.  
  13353.  
  13354. Log-Number: 31544
  13355. From: rab (Robert A. Bruce)
  13356. Subject: Re: rpcstat -trace broken 
  13357. Date: Thu, 03 Oct 91 18:05:30 PDT
  13358.  
  13359. > rpcstat -trace produces gibberish.  I remember agreeing to leave the
  13360. > rpc tracing in the kernel.
  13361.  
  13362. The rpc tracing is still in the kernel, but it is off by default.
  13363. If you want to use it, you need to set rpc_Tracing to TRUE.
  13364.  
  13365.         -bob
  13366.  
  13367.  
  13368.  
  13369. Log-Number: 31541
  13370. From: mendel (Mendel Rosenblum)
  13371. Subject: Select problem? 
  13372. Date: Thu, 03 Oct 91 16:34:56 PDT
  13373.  
  13374.  
  13375. ------- Forwarded Message
  13376.  
  13377. Return-Path: margo
  13378. Received: by sprite.Berkeley.EDU (5.59/1.29)
  13379.     id AA539695; Thu, 3 Oct 91 15:57:56 PDT
  13380. Date: Thu, 3 Oct 91 15:57:56 PDT
  13381. >From: margo (Margo Seltzer)
  13382. Message-Id: <9110032257.AA539695@sprite.Berkeley.EDU>
  13383. To: mendel@sprite.Berkeley.EDU
  13384. Subject: piracy hanging
  13385.  
  13386.  
  13387. Mendel,
  13388.  
  13389. .....
  13390.  
  13391. I just tried connecting to piracy with Kdbx and got a series of:
  13392.  
  13393. Fs_SocketStub: open failure
  13394. 40001: sendto (ioctl)
  13395.  
  13396. messages.
  13397.  
  13398. I'm rebooting at the moment.  Any suggestions?
  13399.  
  13400. - - M
  13401.  
  13402. PS:  It's running the latest kernel.
  13403.  
  13404.  
  13405. ------- End of Forwarded Message
  13406.  
  13407.  
  13408.  
  13409. Log-Number: 31547
  13410. From: mgbaker (Mary Gray Baker)
  13411. Subject: Larceny died with sched_Mutex deadlock
  13412. Date: Fri, 04 Oct 91 11:33:13 PDT
  13413.  
  13414. Last night larceny died with a deadlock on sched_Mutex.  One of the processes
  13415. involved was a killdebug, and the other was a make process that was trying
  13416. to go into the debugger, I think.  I couldn't look at it for long since
  13417. people were using the machine, and they were desperately trying to finish
  13418. a class programming assignment.
  13419.  
  13420.  
  13421. Stack trace of process 1:
  13422.     Mach_ContextSwitch
  13423.     Sched_LockAndSwitch
  13424.     Mach_UserAction
  13425.     MachReturnFromTrap
  13426.  
  13427. Stack trace of process 2:
  13428.     Mach_ContextSwitch
  13429.     Sched_ContextSwitch
  13430.     Proc_SuspendProcess
  13431.     Sig_Handle
  13432.     MachUserAction
  13433.     MachReturnFromTrap
  13434.  
  13435. Stack trace of the kernel:
  13436.     Sync_SlowBroadcast
  13437.     RpcClientDispatch
  13438.     Net_Input
  13439.     NetLERecvProcess
  13440.     NetLEIntr
  13441.     MachHandleInterrupt
  13442.     MachContextSwitch2
  13443.     Sched_ContextSwitchInt
  13444.     Sched_ContextSwitch
  13445.     Proc_SuspendProcess
  13446.     Sig_Handle
  13447.  
  13448.  
  13449. Mary
  13450.  
  13451.  
  13452. Log-Number: 31548
  13453. From: rab (Robert A. Bruce)
  13454. Subject: fatal error in FsCacheFileBlocks
  13455. Date: Fri, 04 Oct 91 15:34:55 PDT
  13456.  
  13457. Covet crashed with
  13458.  
  13459. Fatal error:  FsCacheFileBlocks, bad block
  13460.  
  13461. It is still in the debugger if anyone wants to look at it.
  13462.  
  13463.         -bob
  13464.  
  13465.  
  13466.  
  13467. Log-Number: 31552
  13468. Date: Sat, 5 Oct 91 15:46:32 PDT
  13469. From: mendel (Mendel Rosenblum)
  13470. Subject: Adduser from uid database doesn't set password
  13471.  
  13472.  
  13473. Running the adduser script and specifying the account info be taken from
  13474. the UCB uid database causes the account to be created with a password
  13475. entry of "*". This means that account can not be used until someone with
  13476. root access sets a usable password for the account. If the uid database
  13477. returns a password of "*" the adduser script should prompt for an initial
  13478. password.
  13479.  
  13480.     Mendel
  13481.  
  13482.  
  13483. Log-Number: 31554
  13484. From: mendel (Mendel Rosenblum)
  13485. Subject: Long-running program crashes ds5000
  13486. Date: Sun, 06 Oct 91 14:32:27 PDT
  13487.  
  13488.  
  13489. I started three long-running simulations on 3 decStations 5000 (loiter,
  13490. hijack, and arson) yesterday. When I came in this morning all three machine
  13491. were in a frozen state.  There are no error messages on the console and
  13492. the machines are not responding to "kmsg".  The simulation does use
  13493. floating point. The runs were using different alogorithms and random number
  13494. seeds. The number of simulation steps (disk writes) varied widely from 
  13495. 140 to 614 million before the machine froze. Did we ever fix the problem 
  13496. with long-running floating point simulations like this one and Pete Chen's?
  13497.  
  13498.     Mendel
  13499.  
  13500. ps.  This same program has been running for the last week on sparcStations
  13501.      with zero problems. 
  13502.  
  13503.  
  13504.  
  13505. Log-Number: 31569
  13506. From: mendel (Mendel Rosenblum)
  13507. Subject: DecStation freeze up problem
  13508. Date: Tue, 08 Oct 91 20:06:34 PDT
  13509.  
  13510.  
  13511. John Hartman and I discovered the cause of the decStations freezing up
  13512. while running long-running simulations.  The problem stems from the mips
  13513. assembly language having two add instructions: "add" and "add unsigned".  
  13514. The difference between the instructions is that the "add" instruction 
  13515. generates an overflow trap if a two-complement overflow occurs.  
  13516. In the assembly language written for the decStation port, the code mainly
  13517. uses the "add" rather than the "add unsigned" instruction.  
  13518.  
  13519. This machine crash was caused by the "add" instruction used to increase
  13520. the tlb miss counters.  When the long running simulation has generated
  13521. more than 2^31 tlb faults the "add" instruction that increments the
  13522. counter traps.  A trap inside the tlb handler is bad news because even
  13523. the kernel uses the tlb reload routine.  Sprite goes into an infinite loop 
  13524. taking exceptions because the tlb handler quits working.
  13525.  
  13526. The ds5000 run Sprite is capable of generating about 600,000 tlb misses a 
  13527. second. At this rate the kernel last about an hour before death. 
  13528. My log wrap simulator generates around 200,000 tlb misses a second so it 
  13529. last around 3 hours. This also imples that the simulator is spending 1/3 
  13530. its time in the tlb reload routine.  
  13531.  
  13532. I haven't fixed anything. We need to go thru the kernel and fix all the 
  13533. "add" instructions that should be "addu".  This problem can has occur
  13534. for addresses because decStation kernel address have the top bit set.
  13535.  
  13536.     Mendel
  13537.  
  13538.  
  13539.  
  13540.  
  13541. Log-Number: 31555
  13542. Date: Sun, 6 Oct 91 16:44:17 PDT
  13543. From: shirriff (Ken Shirriff)
  13544. Subject: File system deadlock
  13545.  
  13546. I looked at a file system deadlock Margo is experiencing using big shared
  13547. memory files, but I don't know what the solution is:
  13548.  
  13549. Her program tries to page in a page from a shared file "buf.shared", but
  13550. there are no free pages.  So it has the cacheInfoPtr->lock held for
  13551. buf.shared, and is waiting for a clean block.  Meanwhile, there are 3
  13552. processes which are trying to page out dirty pages from buf.shared, but
  13553. they have to get the cacheInfoPtr lock on buf.shared before they can continue.
  13554. So the file is locked until there is a free cache block, but no blocks
  13555. can be freed until the file is unlocked.
  13556.  
  13557. Any ideas on how to solve this?
  13558.  
  13559. Ken
  13560.  
  13561.  
  13562. Log-Number: 31556
  13563. From: mendel (Mendel Rosenblum)
  13564. Subject: rlogind infinite loop
  13565. Date: Sun, 06 Oct 91 18:12:33 PDT
  13566.  
  13567.  
  13568. I've noticed rlogind going into an infinite loop on decStations. I debugged
  13569. one on subversion and found the following problem:
  13570.  
  13571. The program reads a 4 byte buffer off the net containing the characters 
  13572. 0xff, 0xff, 0xff, 0xff.  Since this starts with the magic characters
  13573. the rlogind assumes that it is a special command and calls tne
  13574. control() routine.  The control() ignores the sequence because it is
  13575. not long enough to be a command. Because the control() doesn't increase
  13576. the buffer to note that the the characters are processed,
  13577. the rlogind goes into an infinite loop calling the control() with the
  13578. same buffer.  There is a command with the code that might explain the
  13579. problem:
  13580.  
  13581.         /*
  13582.          * Scan over input data looking for control requests
  13583.          * (which are preceded by "magic" characters).  Send normal
  13584.          * data to the terminal driver, and control info to a
  13585.          * special procedure for handling.  By the way, the code below
  13586.          * is gross, since it won't work if the control information
  13587.          * happens to span a buffer boundary (but if it's good enough
  13588.          * for UNIX, then I suppose it's good enough for Sprite).
  13589.          */
  13590.  
  13591. The rlogin is command from annex1.berkeley.edu which is some kind of 
  13592. terminal server. It might be that this sends different control sequences
  13593. than a normal unix rlogin process.  
  13594.  
  13595. Another possibility is that some changes to be compatibility code caused
  13596. this problem. I've only seen it on decStations.  
  13597.  
  13598.     Mendel
  13599.  
  13600.  
  13601. Log-Number: 31558
  13602. Date: Sun, 6 Oct 91 19:48:39 PDT
  13603. From: mendel (Mendel Rosenblum)
  13604. Subject: Re: rlogind infinite loop
  13605.  
  13606. I've fixed the bug that caused the infinite loop in rlogind and reinstall
  13607. rlogind on all machine types.   The bug was introduced when rlogind was
  13608. ported to Sprite.  It's behavior now on Sprite is the same as on Unix. 
  13609.  
  13610. This still leaves the question of is the rlogin really sending four
  13611. bytes of 0xff character or is something in sprite, the ipServer, or
  13612. the compat library doing something wrong.
  13613.  
  13614.     Mendel
  13615.  
  13616.  
  13617. Log-Number: 31559
  13618. Subject: pmake didn't compile
  13619. Date: Sun, 06 Oct 91 21:23:15 PDT
  13620. From: Mike Kupfer <kupfer>
  13621.  
  13622.  
  13623. There was some code in pmake that didn't compile on Sage because on
  13624. suns it expected "struct direct" to have a member "d_fileno".  Neither
  13625. the pmake dir.c or the system dir.h have changed recently, so I don't
  13626. know how this used to compile.
  13627.  
  13628. I changed "ifdef sun" to "if defined(sun) && !defined(sprite)" since
  13629. (1) Sprite uses different member names and (2) with the Sprite libc
  13630. the check inside the ifdef isn't needed anyway.  I'm not real happy
  13631. with this solution, so if someone would like to suggest something
  13632. cleaner, I'm all ears.
  13633.  
  13634. mike
  13635.  
  13636.  
  13637. Log-Number: 31561
  13638. Date: Mon, 7 Oct 91 11:49:47 PDT
  13639. From: schauser (Klaus Erik Schauser)
  13640. Subject: Latex on Cardamom does not work anymore
  13641.  
  13642. cardamom:/pcs/schauser> latex
  13643. Called Sprite syscall
  13644. *** compat: Invalid message # for Gen module: status = 0x16
  13645. This is Common TeX, Version 2.9 (no format preloaded)
  13646. (Fatal format file error; I'm stymied)
  13647. cardamom:/pcs/schauser>
  13648.  
  13649.  
  13650. Log-Number: 31563
  13651. Date: Mon, 7 Oct 91 13:32:53 PDT
  13652. From: shirriff (Ken Shirriff)
  13653. Subject: latex in compatibility mode
  13654.  
  13655. Jim determined that latex doesn't run from the sww on Sprite because
  13656. it tries to access /usr/sww/lib/tex/inputs/article.sty.
  13657. However, inputs is a link to ../../share/lib/TeX/inputs.
  13658.  
  13659. The problem is that under Unix, the sww main directory is mounted as
  13660. /usr/sww, while the sww share directory is mounted as /usr/sww/share.
  13661. That is, one NFS file system is mounted as a subdirectory of another NFS
  13662. file system.  Unfortunately, I don't think we can do this with Sprite's
  13663. nfsmount, since we use remote links instead of a mount table.
  13664. Any ideas on what to do about this?  How hard would it be to modify
  13665. nfsmount to permit this?  Could it be done some way that's not totally gross?
  13666.  
  13667. Ken
  13668.  
  13669.  
  13670. Log-Number: 31568
  13671. Date: Tue, 8 Oct 91 17:48:37 PDT
  13672. From: shirriff (Ken Shirriff)
  13673. Subject: makedepend too slow (whining)
  13674.  
  13675. Running "pmake dependall" on the kernel takes literally hours to run.
  13676. After 2 hours, I'm about 1/3 of the way through.
  13677.  
  13678.  
  13679. Log-Number: 31570
  13680. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  13681. Date: Wed, 9 Oct 1991 11:09:19 PDT
  13682. Subject: bug in VmMach_TLBFault
  13683.  
  13684.  
  13685. The routine VmMach_TLBFault for the ds5000 has a bug in which under
  13686. some conditions it returns FALSE if the address is invalid.
  13687. Unfortunately SUCCESS == FALSE and FAILURE == TRUE, so the higher-level
  13688. code thinks the TLB fault was handled correctly.  If the problem
  13689. happens in a user-level program the process will loop forever.  If
  13690. it happens in the kernel the kernel will loop forever.   What is
  13691. the state of the kernel install?  Should this fix wait for the next
  13692. kernel?
  13693.  
  13694. John
  13695.  
  13696.  
  13697.  
  13698. Log-Number: 31572
  13699. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  13700. Date: Wed, 9 Oct 1991 21:31:22 PDT
  13701. Subject: compat bug with grep?
  13702.  
  13703.  
  13704. I put /sprite/cmds.compat in my path as suggested.  I've found that
  13705. if I try to redirect the output from /sprite/cmds.compat/grep into
  13706. a file the file ends up empty.  I'm running this on a ds5000, and
  13707. /sprite/cmds.compat appears in my path before /sprite/cmds.
  13708.  
  13709. John
  13710.  
  13711.  
  13712. Log-Number: 31576
  13713. Date: Wed, 9 Oct 91 23:44:48 PDT
  13714. From: shirriff (Ken Shirriff)
  13715. Subject: Re: compat bug with grep?
  13716.  
  13717. I had a bug in the new compat library for the ds3100; it wasn't doing a
  13718. fflush on exit.  I don't know what other compat programs are affected; they
  13719. should probably all be recompiled sometime anyways, since I made a fair
  13720. number of changes the last couple days.
  13721.  
  13722. Ken
  13723.  
  13724.  
  13725. Log-Number: 31577
  13726. Date: Thu, 10 Oct 91 08:20:22 PDT
  13727. From: ouster (John Ousterhout)
  13728. Subject: Lust crash
  13729.  
  13730. When I came in this morning Lust was in the debugger.  The last error
  13731. message on the console was about a disk error on SCSI #0, Target 4,
  13732. info bytes "0x0 0x5 0xe4 0xa".  I tried rebooting "mgbaker" but there
  13733. was no such kernel on Lust's disk so I rebooted with "new".
  13734.  
  13735.                     -John-
  13736.  
  13737.  
  13738. Log-Number: 31579
  13739. Date: Fri, 11 Oct 91 08:36:50 PDT
  13740. From: bmiller (Bob Miller)
  13741. Subject: Allspice down this morning
  13742.  
  13743.  
  13744. When I came in this morning, allspice was down...
  13745.  
  13746. Warning: SCSI Disk SCSI3#0 Target 1 LUN 0 error: media error - info bytes
  13747.    0x0 0x6 0x7d 0xad
  13748. Entering debugger with a Interrupt Trap (16) exception at PC 0xf60c0eec
  13749.  
  13750.  
  13751. core dump is in 'vmcore.allspice.crach.11oct'
  13752.  
  13753.  
  13754. Log-Number: 31581
  13755. Subject: bug w/ Xcfbpmax and pseudo devices?
  13756. Date: Fri, 11 Oct 91 13:56:08 PDT
  13757. From: Mike Kupfer <kupfer>
  13758.  
  13759.  
  13760. I ran into a problem where I'd be sitting in front of piracy, start
  13761. xmh on sage, and see 
  13762.  
  13763.   sage% Warning: translation table syntax error: Unknown event type :  B
  13764.   Warning: ... found while parsing '<Btn1Down>,<B'
  13765.  
  13766. The complaint has to do with processing the resources from my
  13767. .Xdefaults, not from setting up the default xmh resources.  My "reply"
  13768. and "compose" buttons don't get installed correctly.
  13769.  
  13770. I've tried a variety of machines, versions of xmh, and kernels.  It
  13771. looks like there's a strange interaction between the X server and
  13772. pseudo-devices.  (Note that arson-arson is okay, arson-piracy is bad
  13773. normally, but arson-piracy works when DISPLAY is set so that the
  13774. communication has to go through the IP server.)
  13775.  
  13776. By the way, I couldn't try an old Xcfbpmax, because the version in
  13777. /X11/R4/cmds.ds3100.old is only about an hour older than the installed
  13778. version, and it exhibits the same problem.
  13779.  
  13780. mike
  13781. ----------
  13782.  
  13783. X server    xmh on        result
  13784. --        --        --
  13785. sage (DL.245)    sage        OK
  13786. piracy (MARGO.9)piracy        OK
  13787. sage        piracy        OK
  13788. piracy        sage        bad
  13789. piracy        sabotage (1.100)bad
  13790. piracy        coons (1.100)    bad
  13791. arson (1.100)    sage        bad
  13792. arson        piracy        bad
  13793. arson (1.099)    sage        bad
  13794. arson (1.099)    piracy (1.099)    bad (using old xmh, too)
  13795. arson (1.099)    arson (1.099)    OK
  13796. arson        piracy        OK (with DISPLAY set to
  13797.                    arson.BERKELEY.EDU:0)
  13798.  
  13799.  
  13800. Log-Number: 31588
  13801. Subject: hung RPCs to raid1
  13802. Date: Sat, 12 Oct 91 22:25:48 PDT
  13803. From: Mike Kupfer <kupfer>
  13804.  
  13805. I've been having problems this evening with processes hanging.  In
  13806. Sage's syslog I'd see 
  13807.  
  13808.   RpcDoCall: <io control> RPC to raid1 is hung
  13809.  
  13810. followed after a long pause by
  13811.  
  13812.   <io control> RPC ok
  13813.  
  13814. I thought that raid1 might be getting hung up cleaning, so I looked in
  13815. its syslog.  I found the following suspicious looking lines (Sage is
  13816. client 33):
  13817.  
  13818. ClientCommand, delete msg to client 33 file "llib-lc.ln" <1,149314> failed 40012
  13819.     Client state killed: 0 refs 0 write 0 exec
  13820. ClientCommand, delete msg to client 33 file "libc.a.new~" <1,234145> failed 40012
  13821.     Client state killed: 0 refs 0 write 0 exec
  13822. ClientCommand, delete msg to client 33 file "lint" <1,78070> failed 40012
  13823.     Client state killed: 0 refs 0 write 0 exec
  13824. ClientCommand, delete msg to client 33 file "psh.o" <1,78072> failed 40012
  13825.     Client state killed: 0 refs 0 write 0 exec
  13826. ClientCommand, delete msg to client 33 file "psh" <1,78074> failed 40012
  13827.     Client state killed: 0 refs 0 write 0 exec
  13828. ClientCommand, delete msg to client 33 file "libc.a.new~" <1,234144> failed 40012
  13829.     Client state killed: 0 refs 0 write 0 exec
  13830.  
  13831. These are in fact some of the files I was trying to update.  Anyone
  13832. know what's going on here?
  13833.  
  13834. (Raid1 is running the 1.100 kernel, and Sage is running DL.245.)
  13835.  
  13836. mike
  13837.  
  13838.  
  13839. Log-Number: 31590
  13840. Date: Mon, 14 Oct 91 15:50:54 PDT
  13841. From: root (The Sprite God)
  13842. Subject: raid1 crash
  13843.  
  13844. Raid1 crashed with:
  13845. LfsError: on /r3 status 0x50003  Can't write segment to log.
  13846. The kgcore image is in /tmp/vmcore.raid1.elm1.  I rebooted the machine.
  13847.  
  13848. ethan
  13849.  
  13850.  
  13851. Log-Number: 31591
  13852. Date: Tue, 15 Oct 91 10:36:19 PDT
  13853. From: pmchen (Peter M. Chen)
  13854. Subject: nfsmount of ginger
  13855.  
  13856. All the nfsmount of the ginger file systems were dead, so I restarted them
  13857. (as in /hosts/lust/nfs).  This was on lust.
  13858.  
  13859. Pete
  13860.  
  13861.  
  13862. Log-Number: 31593
  13863. Date: Wed, 16 Oct 91 09:59:02 PDT
  13864. From: pmchen (Peter M. Chen)
  13865. Subject: sprite crash yesterday
  13866.  
  13867. Yesterday around 4:30pm, allspice went into the debugger.  I think the
  13868. message was LfsCleanSegment, but I'm not sure.  It wouldn't respond to
  13869. Break-A, or anything else, so we watchdog reset it and rebooted with "new".
  13870.  
  13871. It fsck'ed, then rebooted automatically.
  13872.  
  13873. As it came up, the disk "/allspiceA" hung the SCSI bus (disk light remained
  13874. on) and allspice went into an infinite loop complaining about the scsi bus.
  13875. I watchdog-reset it again and booted "sprite".
  13876.  
  13877. Pete
  13878.  
  13879.  
  13880. Log-Number: 31594
  13881. Date: Wed, 16 Oct 91 11:12:46 PDT
  13882. From: pmchen (Peter M. Chen)
  13883. Subject: allspice write-back failed: out of disk space
  13884.  
  13885. RmtFile "/sprite/spool/mail/mgbaker" <10,2382>
  13886.  
  13887. These messages have been coming up, every 30 seconds for the hour.
  13888. Dunno if the "send-mail -i sprite-users" process in the DEBUG state on allspice
  13889. has anything to do with this.
  13890.  
  13891. Pete
  13892.  
  13893. ------------------------------------------------------------
  13894. mustard% df /sprite/spool/mail/mgbaker
  13895. Prefix              Server         KBytes       Used      Avail    % Used
  13896. /                   allspice       495968     423364      23007      94%
  13897.  
  13898. ------------------------------------------------------------
  13899.  
  13900. mustard% ls -l /sprite/spool/mail/mgbaker
  13901. -rw-------  1 mgbaker     89428 Oct 16 10:05 /sprite/spool/mail/mgbaker
  13902.  
  13903. ------------------------------------------------------------
  13904.  
  13905. mustard% stat /sprite/spool/mail/mgbaker
  13906. --rw------- 1  ID=(1471,155)   89428 bytes  /sprite/spool/mail/mgbaker
  13907.  Server  Domain     File #
  13908.       14      10       2382
  13909. Version 8399    UserType 0x0
  13910. Created:         Apr  8 11:53:13 1991
  13911. Data modified:   Oct 16 10:05:30 1991
  13912. Descr. modified: Oct 16 11:09:43 1991
  13913. Last accessed:   Oct 13 13:53:53 1991
  13914.  
  13915.  
  13916. ------------------------------------------------------------
  13917.  
  13918. allspice% ps -au
  13919. USER     PID   %CPU %MEM  SIZE   RSS STATE   TIME PR COMMAND
  13920. root     30e38  3.2  0.4   640   576 RWAIT   9:23    /sprite/daemons/ipServer 
  13921. root     a0e46  1.3  0.1   176   176 READY   0:02    rlogind 
  13922. alc      f0e44  0.7  0.2   248   248 RWAIT   0:09    mail 
  13923. pmchen   e0e48  0.5  0.2   272   272 WAIT    0:02    -csh 
  13924. pmchen   60e59  0.5  0.1   240   176 RUN     0:00    ps -au 
  13925. root     60e3b  0.0  0.0    88    48 RWAIT   0:10    /sprite/daemons/arpd 
  13926. root     60e39  0.0  0.1   216   120 RWAIT   0:01    /sprite/daemons/lpd 
  13927. root     50e3a  0.0  0.2   320   216 RWAIT   0:10    sendmail -bd -q15m 
  13928. root     30e3c  0.0  0.1   144   136 RWAIT   0:03    /sprite/daemons/inetd ...
  13929. root     50e27  0.0  0.1   280   168 RWAIT   0:01    /sprite/daemons/migd -D ...
  13930. root     70e3d  0.0  0.2   240   224 RWAIT   0:07    -csh 
  13931. root     10e40  0.0  0.1   120   112 RWAIT   0:01    /sprite/daemons/tftpd 
  13932. root     30e41  0.0  0.1   176    96 WAIT    0:00    /sprite/cmds.$MACHINE/lo...
  13933. root     b0e42  0.0  0.1   168   168 WAIT    0:00    rlogind 
  13934. root     10e17  0.0  0.1   240    72 WAIT    0:03    csh ...
  13935. root     80e37  0.0  0.2   224   208 WAIT    0:14    /sprite/daemons/lpd 
  13936. root     50e3f  0.0  0.1   120   104 WAIT    0:02    /sprite/daemons/cron 
  13937. root     70e47  0.0  0.1   168   160 WAIT    0:00    login -h ...
  13938. root     30e45  0.0  0.1    88    72 RWAIT   0:55    /sprite/daemons/mopd 
  13939. ddgarcia 40e49  0.0  0.1   104   104 RWAIT   0:00    more inbox/21 
  13940. root     40e4a  0.0  0.1   184   184 RWAIT   0:00    telnetd 
  13941. root     20e4b  0.0  0.1   160   136 RWAIT   0:00    /sprite/daemons/bootp 
  13942. root     10e4c  0.0  0.1   384   152 DEBUG   0:05    send-mail -i sprite-users 
  13943. root     30e4d  0.0  0.0    72    48 RWAIT   0:02    newtee -inputFile ...
  13944. root     30e4e  0.0  0.0    72    48 RWAIT   0:01    newtee -inputFile ...
  13945. root     60e4f  0.0  0.2   200   200 RWAIT   0:01    telnetd 
  13946. root     d0e50  0.0  0.1   176   168 WAIT    0:00    /sprite/cmds.$MACHINE/lo...
  13947. ddgarcia a0e53  0.0  0.2   248   248 WAIT    0:02    -csh 
  13948. root     10e0e  0.0  0.0    96     0 WAIT    0:00    cmds/initsprite -b ...
  13949. root     40e5b  0.0  0.1   168   168 RWAIT   0:01    rlogind 
  13950. root     f0e5c  0.0  0.1   168   160 WAIT    0:00    login -h ...
  13951. alc      f0e5d  0.0  0.2   248   248 WAIT    0:01    -csh 
  13952.  
  13953.  
  13954. Log-Number: 31595
  13955. Date: Wed, 16 Oct 91 16:18:11 PDT
  13956. From: pmchen (Peter M. Chen)
  13957. Subject: Re: allspice write-back failed: out of disk space
  13958.  
  13959. I rebooted mustard and the problem went away.
  13960.  
  13961. Pete
  13962.  
  13963.  
  13964. Log-Number: 31596
  13965. Date: Wed, 16 Oct 91 16:22:05 PDT
  13966. From: pmchen (Peter M. Chen)
  13967. Subject: Re: allspice write-back failed: out of disk space
  13968.  
  13969. After I sent out the previous message, the same error message appeared
  13970. over and over:
  13971. 10/16/91 16:21:41 allspice (14) RmtFile "/sprite/spool/mail/mgbaker" <10,2382> Write-back failed: out of disk space<40008>
  13972.  
  13973. It seemed like the mail to bugs triggered this error.
  13974.  
  13975. Pete
  13976.  
  13977.  
  13978. Log-Number: 31611
  13979. Date: Fri, 18 Oct 91 03:33:13 PDT
  13980. From: eklee (Edward K. Lee)
  13981. Subject: Close call with raid1
  13982.  
  13983. We almost lost /r3 on raid1 today.
  13984. The problem started with a consistent read error for a certain file descriptor.
  13985. (I'm not sure exactly what the problem was; Mike can explain it better.)
  13986. Mike and I further investigated the problem and discovered that one of the
  13987. disks on which /r3 is built was generating intermittent hw read errors.
  13988. We were able to copy the disk by reissuing read requests until they completed
  13989. successfully (over a hundred read errors occured while copying the disk).
  13990. Most likely, the data on the disk was OK but the electronics 
  13991. is bad.  Please check your files and let me know if any of them are corrupted.
  13992.  
  13993. As a note, at one point, Mike and I considered restoring the filesystem from
  13994. tape but the most recent dump was from Saturday.  It appears that the problem
  13995. with dumps completing is still a problem.
  13996.  
  13997. Ed
  13998.  
  13999.  
  14000. Log-Number: 31612
  14001. Date: Fri, 18 Oct 91 08:46:45 PDT
  14002. From: ouster (John Ousterhout)
  14003. Subject: Allspice crash and bogus bootcmds
  14004.  
  14005. When I came in this morning Allspice was not responding to client
  14006. requests (e.g. Tyranny was continually broadcasting for /swap1 and
  14007. receiving no response) although it appeared alive upstairs.  There
  14008. were many messages on the console of the form
  14009.  
  14010. Fsrmt_RpcRead, no handle, ...
  14011. FsrmtFileVerify, no handle, ...
  14012.  
  14013. I rebooted it, but the other machines were still unable to connect
  14014. to /swap1.  Also, the inetd on Allspice died with select errors.
  14015. Eventually I figured out that /swap1 wasn't mounted on Allspice.
  14016. I read through /hosts/allspice/bootcmds and discovered that the
  14017. mount command for /swap1 was commented out!  I mounted /swap1 by
  14018. hand and things appear OK now.  However, at some point in there
  14019. when things were catatonic I also rebooted Lust.
  14020.  
  14021. Action items:
  14022.  
  14023. 1. Why is the mount line for /swap1 commented out in /hosts/allspice/bootcmds?
  14024. Doesn't this need to get fixed ASAP?
  14025.  
  14026. 2. The 1.101 kernel seems to be having continued problems with select.
  14027. This also needs to get fixed ASAP or else let's back out to 1.100
  14028. again.
  14029.                     -John-
  14030.  
  14031.  
  14032. Log-Number: 31613
  14033. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  14034. Date: Fri, 18 Oct 1991 10:34:17 PDT
  14035. Subject: Re: Allspice crash and bogus bootcmds
  14036.  
  14037.  
  14038. /swap1 was unmounted by tve due to problems with it while we were at
  14039. SOSP.  Mendel and I put things back together but we forgot to 
  14040. uncomment the line in /hosts/allspice/bootcmds.  It is now fixed.
  14041.  
  14042. I think the "dalmation" kernel is a real dog and we should back out to
  14043. 1.100.
  14044.  
  14045. John
  14046.  
  14047.  
  14048. Log-Number: 31615
  14049. Date: Fri, 18 Oct 91 13:30:52 PDT
  14050. From: ss@joyride.Berkeley.EDU (Srinivasan Seshan)
  14051. Subject: nfsmounting sprite drives on sunos
  14052.  
  14053.  
  14054. I can no longer mount the sprite file systems on my sunOS machine.  
  14055. I get the following error:
  14056.  
  14057. Oct 17 13:08:31 joyride automount[97]: lust: exports: RPC: Timed out
  14058.  
  14059.  
  14060.     Srini Seshan
  14061.  
  14062.  
  14063. Log-Number: 31617
  14064. From: mgbaker (Mary Gray Baker)
  14065. Subject: terrorism pmeg free list munged
  14066. Date: Fri, 18 Oct 91 14:15:04 PDT
  14067.  
  14068. Terrorism died running the 1.099 kernel in VmCheckListIntegrity while
  14069. checking a pmegPtr that had a pagecount of 0 and thus was thought to be
  14070. on the free pmeg list.  But it wasn't really on the list and appeared to
  14071. have been removed already.
  14072.  
  14073. #0  panic (__builtin_va_alist=-166886998) (sysPrintf.c line 220)
  14074. #1  0xf60d82b0 in VmCheckListIntegrity (listHdr=(struct List_Links *) 0xf617aff8) (vmSubr.c line 1499)
  14075. #2  0xf60c7d40 in VmMach_PageValidate (virtAddrPtr=(struct Vm_VirtAddr *) 0xf8101db0, pte=3917487601) (sun4c2.md/vmSun.c line 3466)
  14076. #3  0xf60d0374 in VmPageValidateInt (virtAddrPtr=(struct Vm_VirtAddr *) 0xf8101db0, ptePtr=(unsigned int *) 0xf64b7550) (vmPage.c line 654)
  14077. #4  0xf60d1c84 in FinishPage (transVirtAddrPtr=(struct Vm_VirtAddr *) 0xf8101db0, ptePtr=(unsigned int *) 0xf64b7550) (vmPage.c line 1773)
  14078. #5  0xf60d18e4 in Vm_PageIn (virtAddr=(char *) 0x400f0 <Address 0x400f0 out of bounds>, protFault=0) (vmPage.c line 1601)
  14079. #6  0xf600e830 in MachPageFault (busErrorReg=32896, addrErrorReg=(char *) 0x400f0 <Address 0x400f0 out of bounds>, trapPsr=285216900, pcValue=(char *) 0x1e184634 "\320%@") (sun4c2.md/machCode.c line 1318)
  14080. #7  0xf6012394 in MachHandlePageFault ()
  14081. #8  0x1e1844f0 in ?? ()
  14082. #9  0x3800 in ?? ()
  14083. #10 0x2f14 in ?? ()
  14084. #11 0x1e111120 in ?? ()
  14085. #12 0x1e11130c in ?? ()
  14086. #13 0x1e1095cc in ?? ()
  14087. #14 0x1e1095b4 in ?? ()
  14088. #15 0x2c48 in ?? ()
  14089.  
  14090.  
  14091.  
  14092. Mary
  14093.  
  14094.  
  14095. Log-Number: 31618
  14096. From: mgbaker (Mary Gray Baker)
  14097. Subject: Allspice cleaner ran out of clean segments
  14098. Date: Fri, 18 Oct 91 17:22:27 PDT
  14099.  
  14100. Allspice crashed with the error:
  14101.     Lfs ran out of clean segments during cleaner checkpoint.
  14102.  
  14103.  
  14104. The core file is on ginger in /export1/cores/lfs.noCleanSegments.
  14105.  
  14106. Mary
  14107.  
  14108.  
  14109. Log-Number: 31619
  14110. Date: Sun, 20 Oct 91 12:38:33 PDT
  14111. From: shirriff (Ken Shirriff)
  14112. Subject: Allspice consistency deadlock?
  14113.  
  14114. >When I came in this morning clients were waiting for Allspice
  14115. >which wasn't doing anything. Allspice's console was alive
  14116. >until I did a cd; then it hung and I couldn't do anything.
  14117.  
  14118. I looked at the core image and it seems like a client consistency deadlock,
  14119. not a 103 problem.  I couldn't figure out who was waiting on whom from the
  14120. core, so I've rebooted with 103.
  14121.  
  14122. Ken
  14123.  
  14124.  
  14125. Log-Number: 31620
  14126. Date: Sun, 20 Oct 91 12:41:18 PDT
  14127. From: shirriff (Ken Shirriff)
  14128. Subject: migd problem
  14129.  
  14130. After rebooting allspice, the migd database seemed to be messed up, since
  14131. 'who' on any machine would result in:
  14132.  MigOpenPdev: Error opening pdev /sprite/admin/migd/pdev (still trying): no such file or directory.
  14133. I restarted migd on a client and things seemed to straighen themselves out
  14134. after a few minutes.
  14135.  
  14136. Ken
  14137.  
  14138.  
  14139. Log-Number: 31621
  14140. From: mendel (Mendel Rosenblum)
  14141. Subject: Problems with reboot this morning
  14142. Date: Mon, 21 Oct 91 12:43:27 PDT
  14143.  
  14144.  
  14145. We had several problems getting Sprite back up this morning once the
  14146. power had been restored to the machine room.  
  14147.  
  14148. 1) The prefix command for allspice for /sprite/src/kernel fails because
  14149.    /sprite/src is on lust and the lstat() for /sprite/src/kernel fails
  14150.    when lust is down.  Lust can't be booted before allspice because it
  14151.    needs "/" from allspice.  This problem accounts for the times that
  14152.    allspice rebooted without mounting /sprite/src/kernel.  I mounted
  14153.    /sprite/src/kernel by hand after lust rebooted.
  14154.  
  14155. 2) The remote link for /tmp was nuked sometime during reboot so the
  14156.    prefix command on lust didn't mount /tmp.  I recreated the remote
  14157.    link for /tmp and mounted /tmp by hand on lust.
  14158.  
  14159. 3) Lust would not reboot with the "compat" kernel. It appears that the
  14160.    Sprite Reverse ARP code failed so Lust couldn't figure out its
  14161.    Sprite ID number. It worked ok with the new kernel.  I suspect
  14162.    that the Sprite Reverse ARP code doesn't work between machine
  14163.    with the different machine types.  I booted the "new" kernel 
  14164.    and it worked.
  14165.  
  14166. 4) Raid1 would not boot with the "compat" kernel. It appears that LFS
  14167.    could not access the raid (/dev/raid3) file systems. The read of
  14168.    the label off /dev/raid3 return zeros for the label. Future reads
  14169.    considered the partition to have size zero. I booted the "new"
  14170.    kernel and it worked.
  14171.  
  14172.    Mendel
  14173.  
  14174.  
  14175. Log-Number: 31623
  14176. Date: Tue, 22 Oct 91 09:00:38 PDT
  14177. From: mottsmth (Jim Mott-Smith)
  14178. Subject: Lust died with List_Remove error
  14179.  
  14180.  
  14181. When I came in this morning Lust was dead with the message:
  14182.     List_Remove: item's pointers are invalid
  14183.  
  14184. It had apparently gone through recovery with Allspice recently
  14185. but I don't know if this is relevant.  I couldn't get a core
  14186. dump so I rebooted Lust with 1.099.
  14187.  
  14188. -- Jim M-S
  14189.  
  14190.  
  14191. Log-Number: 31624
  14192. From: mendel (Mendel Rosenblum)
  14193. Subject: raid module not rebuilt for kernel install
  14194. Date: Tue, 22 Oct 91 10:18:21 PDT
  14195.  
  14196.  
  14197. This is the second kernel install that didn't install the raid module.  
  14198. This there something we can do to promote the raid module to first
  14199. class status?
  14200.  
  14201.     Mendel
  14202.  
  14203. ------- Forwarded Message
  14204.  
  14205. Return-Path: dlong@cats.UCSC.EDU
  14206. Received: from cats.UCSC.EDU by sprite.Berkeley.EDU (5.59/1.29)
  14207.     id AA593489; Mon, 21 Oct 91 18:49:26 PDT
  14208. Received: from am.UCSC.EDU by cats.UCSC.EDU with SMTP
  14209.     id AA05834; Mon, 21 Oct 91 18:47:28 -0700
  14210. >From: dlong@cats.UCSC.EDU
  14211. Received: by am.ucsc.edu (5.65/4.7) id AA07435; Mon, 21 Oct 91 18:47:27 -0700
  14212. Message-Id: <9110220147.AA07435@am.ucsc.edu>
  14213. To: mendel@sprite.Berkeley.EDU (Mendel Rosenblum)
  14214. Subject: Re: Problems with reboot this morning 
  14215. In-Reply-To: Your message of Mon, 21 Oct 91 12:43:27 -0700.
  14216.              <9110211943.AA594486@sprite.Berkeley.EDU> 
  14217. Date: Mon, 21 Oct 91 18:47:26 +45722824
  14218.  
  14219. > 4) Raid1 would not boot with the "compat" kernel. It appears that LFS
  14220. >    could not access the raid (/dev/raid3) file systems. The read of
  14221. >    the label off /dev/raid3 return zeros for the label. Future reads
  14222. >    considered the partition to have size zero. I booted the "new"
  14223. >    kernel and it worked.
  14224. >    Mendel
  14225.  
  14226. This could be because the raid module was not rebuild for the compat
  14227. kernel.  /sprite/src/kernel/sun4.md/raid.o is dated Oct 2.
  14228.  
  14229. dl
  14230.  
  14231. ------- End of Forwarded Message
  14232.  
  14233.  
  14234.  
  14235. Log-Number: 31625
  14236. Date: Tue, 22 Oct 91 11:45:25 PDT
  14237. From: shirriff (Ken Shirriff)
  14238. Subject: Re: raid module not rebuilt for kernel install
  14239.  
  14240. >This is the second kernel install that didn't install the raid module.  
  14241. >This there something we can do to promote the raid module to first
  14242. >class status?
  14243.  
  14244. Maybe updating the howto file so that following it builds all the modules
  14245. would be a start.
  14246.  
  14247. Ken
  14248.  
  14249.  
  14250. Log-Number: 31626
  14251. Subject: allspice crash 
  14252. Date: Tue, 22 Oct 91 12:37:39 PDT
  14253. From: Mike Kupfer <kupfer>
  14254.  
  14255. Somebody left an unsigned note on allspice's console, saying that
  14256. allspice crashed around 0100 today.  Whoever it was took a core file
  14257. (which Ken is looking at) and rebooted allspice with the 1.099 kernel.
  14258.  
  14259. mike
  14260.  
  14261.  
  14262. Log-Number: 31627
  14263. Date: Tue, 22 Oct 91 12:51:11 PDT
  14264. From: shirriff (Ken Shirriff)
  14265. Subject: Re: allspice crash
  14266.  
  14267. Allspice crashed doing a read because the fileLinks list for a cache block
  14268. was bad.  I couldn't tell if the cache block being processed had a bad link
  14269. or if the cache block it pointed to had been overwritten.  My guess is that
  14270. something is trashing memory.
  14271.  
  14272.  
  14273. Log-Number: 31629
  14274. From: tve@crackle.Berkeley.EDU (Thorsten von Eicken)
  14275. Subject: Re: allspice crash 
  14276. Date: Tue, 22 Oct 91 14:14:43 PDT
  14277.  
  14278. At about the time allspice crashed, I was mounting and unmounting
  14279. filesystems. At one point I did a "prefix -U" without "prefix -d"
  14280. beforehand. Dunno if that caused troubles.
  14281.     TvE
  14282.  
  14283.  
  14284. Log-Number: 31631
  14285. Date: Tue, 22 Oct 91 14:41:16 PDT
  14286. From: ouster (John Ousterhout)
  14287. Subject: Allspice IP server dead
  14288.  
  14289. Can someone restart it?  Thanks.
  14290.  
  14291.             -John-
  14292.  
  14293.  
  14294. Log-Number: 31632
  14295. Subject: mustard died with "bad stream type"
  14296. Date: Wed, 23 Oct 91 12:35:23 PDT
  14297. From: Mike Kupfer <kupfer>
  14298.  
  14299. Mustard, which is Peter Chen's ds5000, died with
  14300.  
  14301.   Fatal Error: Fs_RetSegPtr [sic], bad stream type 1830844532
  14302.  
  14303. It was running the 1.099 kernel.  However, when I looked at mustard
  14304. with kgdb, it reported a perfectly normal stream type of 1.  I looked
  14305. briefly at the assembly code for Fs_GetSegPtr, decided it was
  14306. hopeless, and rebooted mustard.
  14307.  
  14308. mike
  14309.  
  14310.  
  14311.  
  14312. Log-Number: 31634
  14313. Date: Wed, 23 Oct 91 13:05:19 PDT
  14314. From: shirriff (Ken Shirriff)
  14315. Subject: Block cleaner killed sassafras
  14316.  
  14317. Sassafras died running the 1.103 kernel due to a bad backend pointer passed
  14318. to the block cleaner FsrmtCleanBlocks.  (It had the address 0x4000c0,
  14319. which didn't point to valid memory.)  Since this came from a Proc_ServerProc,
  14320. I couldn't tell who gave it this pointer originally.
  14321.  
  14322. Also, FsrmtCleanBlocks either has a bug or misleading comments:
  14323. FsrmtCleanBlocks(data, callInfoPtr)
  14324.     ClientData          data;           /* Background flag.  If TRUE it means
  14325.                                          * we are called from a block cleaner
  14326.                                          * process.  Otherwise we being called
  14327.                                          * synchrounously during a shutdown */
  14328. ...
  14329.     backendPtr = (Fscache_Backend *) data;
  14330.  
  14331. Note that the ClientData, which is claimed to be a boolean flag, is cast
  14332. to a structure pointer.
  14333.  
  14334. Ken
  14335.  
  14336.  
  14337. Log-Number: 31635
  14338. Subject: Re: bug w/ Xcfbpmax and pseudo devices?
  14339. Date: Wed, 23 Oct 91 17:29:29 PDT
  14340. From: Mike Kupfer <kupfer>
  14341.  
  14342. I'm still seeing the 
  14343.  
  14344.   sage% Warning: translation table syntax error: Unknown event type :  B
  14345.   Warning: ... found while parsing '<Btn1Down>,<B'
  14346.  
  14347. problems when I run X on arson, rlogin to sage, then start up xmh. 
  14348. Both arson and sage are running 1.103.  Going in the reverse direction
  14349. (run X on sage, rlogin to arson, start up xmh) works fine.
  14350.  
  14351. My suspicion is that the server is doing a partial read and getting
  14352. back "B" when it should get back "Btn1Up".  I tried rebuilding
  14353. Xcfbpmax from scratch, but that didn't fix the problem.  The current
  14354. Xsun and Xcfbpmax were both installed at the same time, so I imagine
  14355. there's some kernel difference that's provoking the problem.
  14356.  
  14357. mike
  14358.  
  14359.  
  14360. Log-Number: 31637
  14361. Subject: allspice crash: LfsSetSegUsage on clean segment
  14362. Date: Wed, 23 Oct 91 21:15:51 PDT
  14363. From: Mike Kupfer <kupfer>
  14364.  
  14365.  
  14366. Allspice has been getting soundly thrashed, I think by Peter Chen's
  14367. I/O benchmark program ("adaptWl"), which is running on sedition. 
  14368. Whatever the problem program is, it's causing /swap1 to get cleaned
  14369. very frequently, which causes the rest of Sprite to get stuck for
  14370. painfully long periods of time.
  14371.  
  14372. Anyway, at one point allspice got really stuck.  L1-t showed that the
  14373. timer queue had gotten wedged.  I tried L1-a and then continue, but a
  14374. couple seconds after that allspice went into the debugger with
  14375.  
  14376.   LfsSetSegUsage called on a clean segment (740).
  14377.  
  14378. Jim claimed that this was a known problem, so I booted the compat
  14379. kernel (1.103) without taking a core file.
  14380.  
  14381. mike
  14382.  
  14383.  
  14384. Log-Number: 31638
  14385. Date: Thu, 24 Oct 91 08:31:53 PDT
  14386. From: ouster (John Ousterhout)
  14387. Subject: Allspice reboot
  14388.  
  14389. Allspice was not responding to clients when I came in this morning.
  14390. Nothing unusual appeared on its console except for a few messages
  14391. about "spurious interrupts".  Since there was nothing obviously wrong,
  14392. I didn't take a core dump, but I rebooted and it cleared up all the
  14393. clients.
  14394.                     -John-
  14395.  
  14396.  
  14397. Log-Number: 31639
  14398. Date: Thu, 24 Oct 91 09:52:20 PDT
  14399. From: ouster (John Ousterhout)
  14400. Subject: New crypt broken
  14401.  
  14402. A new "crypt" was installed in /sprite/cmds.sun4 by dlong on
  14403. October 7, but it appears to be broken (at least for me:  I
  14404. get messages like "crypt: cannot generate key" when I attempt
  14405. to use it).  I've overwritten it with the copy saved in
  14406. /sprite/cmds.sun4.old.
  14407.                     -John-
  14408.  
  14409.  
  14410. Log-Number: 31642
  14411. From: dlong@cats.UCSC.EDU
  14412. Date: Thu, 24 Oct 91 11:25:40 -0700
  14413. Subject: Re: New crypt broken
  14414.  
  14415. The old crypt gave errors similar to "unaligned heap, recompile", so
  14416. I did.  I'm not sure why the recompiled version was broken.
  14417.  
  14418. dl
  14419.  
  14420.  
  14421. Log-Number: 31641
  14422. From: mendel (Mendel Rosenblum)
  14423. Subject: sedition ran amuck
  14424. Date: Thu, 24 Oct 91 10:14:24 PDT
  14425.  
  14426.  
  14427. Pete Chen's program on sedition adaptWl started paging heavily and wouldn't
  14428. repond to any signals including SIGKILL.  I kmsg -d sedition and couldn't
  14429. attach the debugger to it. The debugger error message was
  14430. "Timing out and resending to host sedition."
  14431.  
  14432.     Mendel
  14433.  
  14434.  
  14435. Log-Number: 31645
  14436. Subject: /sprite/cmds.compat/at broken
  14437. Date: Sat, 26 Oct 91 11:44:59 PDT
  14438. From: Mike Kupfer <kupfer>
  14439.  
  14440. Running the 1.105 kernel...
  14441.  
  14442.   sage% which at
  14443.   /sprite/cmds.compat/at
  14444.   sage% date
  14445.   Sat Oct 26 11:41:31 PDT 1991
  14446.   sage% at 1145
  14447.   /usr/spool/at/91.298.1145.09: no such file or directory
  14448.  
  14449. Note that the spool directory does exist, and there don't appear to be
  14450. any permissions problems.
  14451.  
  14452.   sage% ls -ldg /usr/spool/at
  14453.   drwxr-xr-x  3 root     wheel         512 Oct 25 11:13 /usr/spool/at/
  14454.   sage% ls -l /sprite/cmds.compat/at
  14455.   -rwsrwxr-x  1 root        65536 Oct  7 03:17 /sprite/cmds.compat/at*
  14456.  
  14457. mike
  14458.  
  14459.  
  14460. Log-Number: 31646
  14461. Date: Sat, 26 Oct 91 12:20:36 PDT
  14462. From: mottsmth (Jim Mott-Smith)
  14463. Subject: 'at' doesn't work 
  14464.  
  14465.  
  14466. r.e.: Mike's discovery that 'at' fails with
  14467.     /usr/spool/at/91.298.1145.09: no such file or directory
  14468.  
  14469. It seems that /sprite/cmds.compat/at fails on 1.103 as well.
  14470. Also, /sprite/cmds/at works fine on both 1.103 and 1.105.
  14471.  
  14472. Therefore, I hereby exonerate 1.105 of all slanderous accusations. :-)
  14473.  
  14474. -- Jim M-S
  14475.  
  14476.  
  14477.  
  14478. Log-Number: 31647
  14479. Date: Sun, 27 Oct 91 17:08:41 PST
  14480. From: shirriff (Ken Shirriff)
  14481. Subject: ds3100 wedgeup running 1.105
  14482.  
  14483. I tried to run my name cache simulator on my ds3100 running the 105 kernel.
  14484. After a minute the machine wedged up and didn't respond to anything,
  14485. including L1-A, so I couldn't debug.  The problem doesn't seem to be
  14486. repeatable.  (I guess this bug report will go straight to the ignore pile.)
  14487.  
  14488. Ken
  14489.  
  14490.  
  14491. Log-Number: 31648
  14492. Date: Sun, 27 Oct 91 17:30:37 PST
  14493. From: shirriff (Ken Shirriff)
  14494. Subject: ds3100 wedgeup
  14495.  
  14496. The previously mentioned ds3100 wedgeup is repeatable (much to my dismay),
  14497. and also occurs with the 1.098 kernel.
  14498.  
  14499. Ken
  14500.  
  14501.  
  14502. Log-Number: 31649
  14503. Date: Mon, 28 Oct 91 11:10:04 PST
  14504. From: shirriff (Ken Shirriff)
  14505. Subject: Kernel deadlock in profile code
  14506.  
  14507. This time my simulations deadlocked on the ds5000.
  14508. I was running a profiled simulator.  
  14509. The problem apparently is that the process received a profiling
  14510. timer interrupt during a fork while it was in Prof_Disable and had the
  14511. profilLock monitor lock held.  The timer interrupt called the profiler
  14512. and it deadlocked since the lock was already held.
  14513. Then the other processes (sendmail, cron, csh, etc.) stacked up
  14514. waiting for the lock.
  14515.  
  14516. Ken
  14517.  
  14518.  
  14519. Log-Number: 31651
  14520. From: mendel (Mendel Rosenblum)
  14521. Subject: Re: Allspice refusing FTP 
  14522. Date: Mon, 28 Oct 91 13:13:40 PST
  14523.  
  14524.  
  14525. > Subject: Allspice refusing FTP
  14526. > Allspice is refusing attempts to FTP to it.  Is this an indication
  14527. > that the ipServer needs to be restarted, or is it a bug in the 
  14528. > new kernel?
  14529. >                     -John-
  14530.  
  14531. The problem is that the inetd doesn't like an error returned to an
  14532. accept() system call and it shutdowns the ftp service. The error
  14533. appears in allspice's syslog:
  14534.  
  14535. <28>Oct 24 13:14:35 inetd[30e4d]: ftp/tcp accept: invalid argument
  14536.  
  14537. My guess at the problem is that accept() stub requires two communications
  14538. with the ipServer.  The first is an ioctl() that returns a handle for
  14539. a new connection.  The stub then creates a new connection with the
  14540. ipServer and returns the handle to the ipServer with a ioctl(). I suspect 
  14541. that the client creating the connection is going away between the two ioctl()'s
  14542. causing the second one to return GEN_INVALID_ARG.  Accept
  14543. in Unix doesn't normally return such an error so Unix programs such as
  14544. inetd close the socket if it occurs.  A better thing to do would be
  14545. to have the accept() return SUCCESS and let the future access to
  14546. the socket fail.  In the mean time we could also patch inetd to do
  14547. the right thing.  This was already done for the accept in sendmail.
  14548.  
  14549.     Mendel
  14550.  
  14551.  
  14552. Log-Number: 31656
  14553. From: mgbaker (Mary Gray Baker)
  14554. Subject: Tyranny hung up migration
  14555. Date: Tue, 29 Oct 91 14:36:30 PST
  14556.  
  14557. I put tyranny in the debugger because it hung up migration.  It hasn't been
  14558. rebooted since the troubles with /swap1 and so forth this morning so that's
  14559. probably the problem.
  14560.  
  14561. Mary
  14562.  
  14563.  
  14564. Log-Number: 31657
  14565. From: rab (Robert A. Bruce)
  14566. Subject: bmiller's note
  14567. Date: Tue, 29 Oct 91 14:41:04 PST
  14568.  
  14569. Bob Miller left the following note on allspice's console:
  14570. ----------------------------------------------------------
  14571. When I came in:
  14572. allspice console scrolling "can't fetch handle for file 66371
  14573. for cleaning."
  14574.  
  14575. reset + rebooted "new", which proceeded until:
  14576.  
  14577. "rsd14a: "/"
  14578. rsd00a: 304 files, 7927 blocks in use, 39937 blocksfree, 256 fragments
  14579. /swap1: cleaning started - deficient 226 segs
  14580. Fatal error: LfsError on /swap1 status 0x1 Bad descriptor magic number
  14581.  
  14582. Entering debugger with a interrupt type (16) exception at pc 0xf60cd754
  14583.  
  14584. Took dump -> on vmcore.magicnum.oct29
  14585.  
  14586. reset + rebooted again on "new", but got same error message (dump not taken)
  14587.  
  14588. Tried rebooting "sprite", but got same error
  14589.  
  14590. ----------------------------------------------------------
  14591.  
  14592.         -bob
  14593.  
  14594.  
  14595.  
  14596. Log-Number: 31658
  14597. Date: Tue, 29 Oct 91 15:27:35 -0800
  14598. From: soumen@cory.berkeley.edu (CHAKRABARTI SOUMEN)
  14599. Subject: password
  14600.  
  14601.  
  14602. my password is 11 chars long and after typing only
  14603. 5 and accidentally pressing <CR> i was duly logged
  14604. in. started sending mail and in the middle of  it
  14605. was suddenly logged out.
  14606. could you look into the matter please?
  14607.  
  14608.  
  14609.  
  14610. Log-Number: 31662
  14611. Subject: ds3100 cc bug?  "operands of : have incompatible types"
  14612. Date: Tue, 29 Oct 91 22:57:33 PST
  14613. From: Mike Kupfer <kupfer>
  14614.  
  14615. I tried building migcom (the guts of the Mach MIG compiler) on a
  14616. DECstation and got
  14617.  
  14618.   ccom: Error: server.c, line 1368: operands of : have incompatible types
  14619.                 (IsKernelServer ? WriteTypeDeclOut : WriteTypeDeclIn),
  14620.       ------------------------------------------------------------^
  14621.   *** Error code 1
  14622.  
  14623. WriteTypeDeclOut and WriteTypeDeclIn are both functions, declared as 
  14624.  
  14625.   extern void WriteTypeDeclIn(/* FILE *file, argument_t *arg */);
  14626.   extern void WriteTypeDeclOut(/* FILE *file, argument_t *arg */);
  14627.  
  14628. If I cast the two functions to (int *), as in 
  14629.  
  14630.                 (IsKernelServer ? (int *)WriteTypeDeclOut : (int *)WriteTypeDeclIn),
  14631.  
  14632. the compiler takes the statement without complaint.
  14633.  
  14634. Have I actually found a bug in the MIPS C compiler?
  14635.  
  14636. mike
  14637.  
  14638.  
  14639. Log-Number: 31663
  14640. Date: Wed, 30 Oct 91 08:23:45 PST
  14641. From: ouster (John Ousterhout)
  14642. Subject: restartIPServer vs. nfsmount
  14643.  
  14644. Do the NFS daemons all get restarted correctly when "restartIPServer"
  14645. is invoked on lust?
  14646.  
  14647. I needed to reboot tyranny when I came in this morning, but it wouldn't
  14648. reboot (hung silently).  I figured the boot daemons must be wedged.  I
  14649. couldn't remember which daemons were on Allspice and which were on Lust,
  14650. so I typed "restartIPServer" on both machines.  Allspice restarted fine,
  14651. but a bunch of error messages appeared on Lust's console and it appeared
  14652. that the nfsmount's hadn't been able to restart (e.g. "df" hung).  I was
  14653. in a hurry and didn't have time to poke around, so I just rebooted Lust.
  14654.  
  14655.                     -John-
  14656.  
  14657.  
  14658. Log-Number: 31664
  14659. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  14660. Date: Wed, 30 Oct 1991 11:09:11 PST
  14661. Subject: migration broken
  14662.  
  14663.  
  14664. Migration is having problems on the decstations.  I've been running
  14665. mkmf on the decstations and sometimes the migrated makedepends fail
  14666. with 
  14667.  
  14668. JobFlagForMigration: warning: eviction of process b5323 apparently did not complete.
  14669.  
  14670.  
  14671. This happens when the makedepend is evicted.  I've also encountered
  14672. problems with "Error 1" and "Error 16", although I haven't been able
  14673. to figure out what causes them.   Right now I'm running the 1.105
  14674. kernel, although the problems predate the kernel.
  14675.  
  14676. John
  14677.  
  14678.  
  14679.  
  14680. Log-Number: 31665
  14681. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  14682. Date: Wed, 30 Oct 1991 11:10:58 PST
  14683. Subject: pmake broken
  14684.  
  14685.  
  14686. Pmake's children are often left in the SUSP state indefinitely.  I think
  14687. pmake is suspending any children that cannot be remigrated, but then it
  14688. never continues them.  
  14689.  
  14690. John
  14691.  
  14692.  
  14693. Log-Number: 31666
  14694. From: mendel (Mendel Rosenblum)
  14695. Subject: Last writer still not reset
  14696. Date: Wed, 30 Oct 91 11:56:56 PST
  14697.  
  14698.  
  14699. We are still getting messages of the form:
  14700.  
  14701. ClientCommand, write-back msg to client 83 file ",RCSnew004360" <2,149278> failed 40012
  14702.  
  14703. in allspice's syslog. This happens when allspice does a callback to flush
  14704. dirty blocks when the client has already recycled the handle for the file.
  14705. The bug is the lastWriter field of the file handle on allspice is only update
  14706. when the last block of the file written back because of the delayed writeback.
  14707. The CLOSE RPC currently doesn't inform the server when the clients have
  14708. no dirty blocks for the file left.  This means that any file that does not
  14709. have delayed writeback of blocks will get an unecessary callback to flush
  14710. blocks.   Any zero length file, file open for writing and not written,
  14711. or fsync'ed file will have the problem. 
  14712.  
  14713. The fix is to modify the routine FsrmtFileClose() in fsrmtFile.c to
  14714. send the FS_LAST_DIRTY_BLOCK flag on the close if there are no
  14715. dirty blocks in cache. The number of dirty block is return by
  14716. the call to Fscache_PreventWriteBacks() and this info should be
  14717. used to get the flag to Fsrmt_Close() correctly.  The code on
  14718. the server side of things appears to be correct.
  14719.  
  14720. I will make this fix when the CVS conversion in done.
  14721.  
  14722.     Mendel
  14723.  
  14724.  
  14725. Log-Number: 31669
  14726. Date: Wed, 30 Oct 91 14:06:34 PST
  14727. From: shirriff@ginger.Berkeley.EDU (Ken Shirriff)
  14728. Subject: allspice crash: unaligned addr.
  14729.  
  14730. Allspice crashed with:
  14731. Unaligned address trap in kernel:
  14732. procPTr = f6684128, pc = f6053344
  14733.  
  14734.  
  14735. Log-Number: 31672
  14736. From: mgbaker (Mary Gray Baker)
  14737. Subject: Cross compilation error messages not clear
  14738. Date: Thu, 31 Oct 91 14:28:56 PST
  14739.  
  14740.  
  14741. Soumen was logged onto a sun3 and tried to run the sun4 linker since he
  14742. had only run mkmf for a sun4.  I have explained to him the problem, so I
  14743. think no further immediate action is necessary, but maybe a clearer error
  14744. message could be generated for cross-compilation problems?
  14745.  
  14746.  
  14747. ------- Forwarded Message
  14748.  
  14749. Return-Path: soumen
  14750. Received: by sprite.Berkeley.EDU (5.59/1.29)
  14751.     id AA407065; Thu, 31 Oct 91 14:08:35 PST
  14752. Date: Thu, 31 Oct 91 14:08:35 PST
  14753. >From: soumen (SOUMEN CHAKRABARTI)
  14754. Message-Id: <9110312208.AA407065@sprite.Berkeley.EDU>
  14755. To: mgbaker@sprite.Berkeley.EDU
  14756. Subject: install
  14757.  
  14758. hi mary,
  14759.     last time i manaed to grt the skeleton running
  14760. in my dir, today without any change pmake is failing
  14761. with 
  14762. cc; installation problem , cannot exec ld.sun4 : ....
  14763. this is very exasperating to get held up by such snags.
  14764.  
  14765. could you please look into the matter?
  14766.                     soumen.
  14767.  
  14768.  
  14769. ------- End of Forwarded Message
  14770.  
  14771.  
  14772.  
  14773. Log-Number: 31673
  14774. Subject: Re: install 
  14775. Date: Thu, 31 Oct 91 17:43:35 EST
  14776. From: Fred Douglis <douglis@MITL.COM>
  14777.  
  14778. This follows on to Mary's comment about the cross-compilation
  14779. environment not generating clear messages.  A message like "wrong type
  14780. of executable" would be so much better than "permission denied"....
  14781.  
  14782. Fred
  14783.  
  14784.  
  14785. Log-Number: 31680
  14786. Subject: a.out's for other machine types
  14787. Date: Thu, 31 Oct 91 17:46:42 PST
  14788. From: Mike Kupfer <kupfer>
  14789.  
  14790. Actually, Bob was in some sense right when he said 
  14791.  
  14792. > there is no errno the kernel can pass that means 
  14793. > (wrong type of executable).
  14794.  
  14795. csh apparently interprets ENOEXEC as meaning "not an executable file",
  14796. so it tries to treat the file as a shell script.  This can lead to
  14797. unedifying error messages like
  14798.  
  14799.   foo: 1: Syntax error: "(" unexpected
  14800.  
  14801. if the file is a binary of some sort.
  14802.  
  14803. According to the RCS log for procExec.c, Ken put in code to check for
  14804. this condition, so that the shell wouldn't try to run the binary
  14805. as a script.  The relevant kernel code (in both DoExec and
  14806. SetupInterpret) is
  14807.  
  14808.   if (ProcGetObjInfo(filePtr, (ProcExecHeader *)buffer, &objInfo)
  14809.     != SUCCESS) {
  14810.     if (ProcIsObj(filePtr,1) == SUCCESS) {
  14811.       status = FS_NO_ACCESS;
  14812.     } else {
  14813.       status = PROC_BAD_AOUT_FORMAT;
  14814.     }
  14815.   }
  14816.  
  14817. The ProcIsObj call returns SUCCESS if the file is any sort of object
  14818. file, even one for a different machine type.  
  14819.  
  14820. Maybe GEN_EINVAL would be better than FS_NO_ACCESS?
  14821.  
  14822. mike
  14823.  
  14824.  
  14825. Log-Number: 31674
  14826. Subject: gdb on ds5000 can't print past 15
  14827. Date: Thu, 31 Oct 91 16:12:34 PST
  14828. From: Mike Kupfer <kupfer>
  14829.  
  14830. This is on piracy, running gdb 3.5.
  14831.  
  14832.   (gdb) print /x 4097
  14833.   (gdb) print /x 16
  14834.   (gdb) print 16
  14835.   (gdb) print 2+2
  14836.   $4 = 4
  14837.   (gdb) print /x 4097+0
  14838.   (gdb) print 2
  14839.   $6 = 2
  14840.   (gdb) print 16
  14841.   (gdb) print 15
  14842.   $8 = 15
  14843.   (gdb) print 15+1
  14844.   (gdb) 
  14845.   (gdb) print 16-1
  14846.   $11 = 15
  14847.   (gdb) print 17-1
  14848.   (gdb) 
  14849.  
  14850.  
  14851.  
  14852. Log-Number: 31681
  14853. Date: Fri, 1 Nov 91 08:21:02 PST
  14854. From: pmchen (Peter M. Chen)
  14855. Subject: pmake hangs
  14856.  
  14857. When I do a pmake, it hangs indefinitely (as with my bug report a couple days
  14858. ago).  This time it had migrated to coons.
  14859.  
  14860. Is this a known bug?  Until it's fixed, we could turn off migration on those
  14861. machines that hang pmake.
  14862.  
  14863. Pete
  14864.  
  14865. ps. This was on mustard, a ds5000 running 1.105.  I ran pmake in
  14866.     ~pmchen/adaptWl
  14867.  
  14868.  
  14869. Log-Number: 31682
  14870. Subject: sun3 CFLAGS
  14871. Date: Fri, 01 Nov 91 15:28:27 PST
  14872. From: Mike Kupfer <kupfer>
  14873.  
  14874. The default CFLAGS when the target is a sun3 is currently just
  14875. "-msun3".  Does anyone know why it isn't
  14876.  
  14877.   -msun3 -Dsun3 -Dsprite
  14878.  
  14879. This would be consistent with all the other machine types.
  14880.  
  14881. mike
  14882.  
  14883.  
  14884. Log-Number: 31683
  14885. Subject: CFLAGS passed to lint
  14886. Date: Fri, 01 Nov 91 15:34:07 PST
  14887. From: Mike Kupfer <kupfer>
  14888.  
  14889. -D and -I flags are passed to lint, but -U flags (e.g., -Uultrix) get
  14890. filtered out.  Is this deliberate?
  14891.  
  14892. mike
  14893.  
  14894.  
  14895. Log-Number: 31685
  14896. From: mendel (Mendel Rosenblum)
  14897. Subject: Re: raid1 crash: jaguar command queue full 
  14898. Date: Sat, 02 Nov 91 16:48:55 PST
  14899.  
  14900.  
  14901. > Subject: raid1 crash: jaguar command queue full
  14902. > Date: Fri, 01 Nov 91 23:17:26 PST
  14903. > From: Mike Kupfer <kupfer>
  14904. > Raid1 crashed this evening.  There were a bunch of messages on the
  14905. > console about failed write-backs (mostly .pcf files to client 73), then
  14906. >   /r3: Cleaning started - deficit 229 segs
  14907. >   Fatal Error: Jaguar3: Command Queue full
  14908. > Raid1 was running the 1.099 kernel.  I put a core file in
  14909. > /home/ginger/cores/raid1.jaguarfull and rebooted with the 1.105 kernel.
  14910. > mike
  14911.  
  14912. The problem is that raid1 overran a jaguar board and panic'ed.  Some
  14913. event such as a cleaning starting or someone typing sync on the console
  14914. caused 16 SCSI commands to be stuffed into the board in rapid succession.
  14915. The code will only send two commands per device and there are 8 devices 
  14916. attached to the board. The host puts the command in a circular command
  14917. buffer and the board takes the command from the buffer and queues it
  14918. internally for the device.   There are 8 command buffers so raid1 managed
  14919. to insert 8 commands before the board removed one.  This is the first
  14920. time this has happen.  The easiest fix would be to increase the number
  14921. of commands buffers to the maximum number of commands that will be
  14922. queued on the board.  This will stop the buffer from getting overrun.
  14923.  
  14924.     Mendel
  14925.  
  14926.  
  14927. Log-Number: 31688
  14928. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  14929. Date: Sat, 2 Nov 1991 18:35:41 PST
  14930. Subject: crash on COW
  14931.  
  14932.  
  14933. The dump program tends to kill hijack if allspice reboots in the
  14934. middle of it.  This is because we don't recover streams correctly,
  14935. so the streams associated with the swap files for dump are
  14936. lost.  Later when dump tries to exit Fs_PageCopy is called to 
  14937. copy any COW pages.  Fs_PageCopy would then die because one
  14938. of the stream pointers was NIL, because of the failed recovery.
  14939. I fixed Fs_PageCopy to make sure the streams aren't NIL and return
  14940. FAILURE if they are.  The return status only propagates up as far
  14941. as the COW routine, so it's possible the machine will die a little
  14942. later but at least this way we'll get a more meaningful error message
  14943. on the console.
  14944.  
  14945. John
  14946.  
  14947.  
  14948. Log-Number: 31690
  14949. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  14950. Date: Sun, 3 Nov 1991 22:16:35 PST
  14951. Subject: allspice's timer stopped again
  14952.  
  14953.  
  14954. Allspice stopped getting timer interrupts again.  L1-a followed by 'c'
  14955. fixed the problem.  Would it be possible to add a test to the network
  14956. interrupt handler to check on the health of the timer and restart it if
  14957. it has stopped?  The test could be done at reasonable intervals to
  14958. avoid slowing down net interrupt handling.
  14959.  
  14960. John
  14961.  
  14962.  
  14963. Log-Number: 31691
  14964. Date: Mon, 4 Nov 91 08:16:37 PST
  14965. From: bmiller (Bob Miller)
  14966. Subject: Lust rebooted
  14967.  
  14968.  
  14969. I can in this morning and found LUST hung...consold messages were:
  14970.  
  14971. Fatal Error: LE ethernet: can not output first packet on restart
  14972. Entering debugger with a breakpoint trap exception at PC0x800e7aac
  14973.  
  14974.  
  14975. Bob
  14976.  
  14977.  
  14978. Log-Number: 31696
  14979. From: mendel (Mendel Rosenblum)
  14980. Subject: Re: gdb sun4 bug? 
  14981. Date: Mon, 04 Nov 91 18:16:23 PST
  14982.  
  14983.  
  14984. > I've been groveling over the gdb sources, to get gdb working on
  14985. > anarchy, and grep pointed out the following code in
  14986. > /sprite/src/cmds/gdb/sun4.md/m-sparc.h:
  14987. >                                              \
  14988. >       if (TYPE_CODE (TYPE) = TYPE_CODE_FLT)                     \
  14989.  
  14990. > Shouldn't that be "== TYPE_CODE_FLT", not "= TYPE_CODE_FLT"?
  14991. > mike
  14992.  
  14993. Yes, you are right. These has been fixed in gdb 4.0 which is installed
  14994. on Sprite under the name gdb.new
  14995.  
  14996.     Mendel
  14997.  
  14998.  
  14999. Log-Number: 31697
  15000. Date: Tue, 5 Nov 91 16:00:56 PST
  15001. From: pmchen (Peter M. Chen)
  15002. Subject: fscmd -M
  15003.  
  15004. Works fine on non-fileservers.  But, when I use it on mustard (ds5000 using
  15005. 1.105), which has a scratch disk, it doesn't seem to work.
  15006.  
  15007. E.g.
  15008. mustard% fscmd -M 1000
  15009. mustard% fsstat
  15010. Block Cache, 9.04 Mbytes
  15011.  BLOCKS 2315 min 32 max 1000(6417) free 2313
  15012.  
  15013. note how there are 2315 blocks in the block cache, even though the max is
  15014. 1000.
  15015.  
  15016. then I unmounted the scratch disk (/user4/pmchen/t1), and tried again.
  15017.  
  15018. mustard% fscmd -M 1000
  15019. mustard% fsstat
  15020. Block Cache, 3.91 Mbytes
  15021.  BLOCKS 1000 min 32 max 1000(6417) free 991
  15022.  
  15023. Pete
  15024.  
  15025.  
  15026. Log-Number: 31701
  15027. From: mendel (Mendel Rosenblum)
  15028. Subject: Re: followup message on fscmd -M for fileservers 
  15029. Date: Tue, 05 Nov 91 16:22:42 PST
  15030.  
  15031.  
  15032. > To: bugs
  15033. > Subject: followup message on fscmd -M for fileservers
  15034. > When I remounted the scratch disk (prefix -M /dev/rsd01c -l /user4/pmchen/t1),
  15035. > the block cache magically got bigger, back to 
  15036. > mustard-4# fsstat
  15037. > Block Cache, 9.92 Mbytes
  15038. >  BLOCKS 2539 min 32 max 1000(6417) free 2505
  15039. > Is there any way to limit the file cache size for file servers?
  15040. > Pete
  15041.  
  15042. Looks like the fscmd -M doesn't work.
  15043.  
  15044. The problem here is that the LFS storage managers reserve space in
  15045. the file cache for cleaning and write buffering.  It disregards any
  15046. "-M" option setting.
  15047.  
  15048.  
  15049.     Mendel
  15050.  
  15051.  
  15052. Log-Number: 31702
  15053. Date: Tue, 5 Nov 91 16:26:14 PST
  15054. From: pmchen (Peter M. Chen)
  15055. Subject: Re: followup message on fscmd -M for fileservers
  15056.  
  15057. >The problem here is that the LFS storage managers reserve space in
  15058. >the file cache for cleaning and write buffering.  It disregards any
  15059. >"-M" option setting.
  15060.  
  15061. >> mustard-4# fsstat
  15062. >> Block Cache, 9.92 Mbytes
  15063. >>  BLOCKS 2539 min 32 max 1000(6417) free 2505
  15064.  
  15065. That shouldn't affect the amount of file data that can be cached, though,
  15066. right?  So the maximum amount of file data (apart from the LFS cleaning and
  15067. write buffering) should be 1000 blocks here, right?
  15068.  
  15069. Pete
  15070.  
  15071.  
  15072. Log-Number: 31699
  15073. From: mgbaker (Mary Gray Baker)
  15074. Subject: Non-deterministic compile errors
  15075. Date: Tue, 05 Nov 91 16:14:30 PST
  15076.  
  15077. Several times in the last few days a module has failed to compile due to
  15078. a spurious syntax error.  By spurious I mean the syntax error doesn't really
  15079. exist, and recompiling the module right away without modification succeeds.
  15080.  
  15081. An example just now was my vm module.  The error was
  15082. --- sun4c.md/vmBoot.o ---
  15083. In file included from /sprite/src/kernel/Include/rpc.h:23, from /sprite/src/kernel/Include/sig.h:19, from /sprite/src/kernel/Include/proc.h:29, from /sprite/src/kernel/Include/sync.h:57, from ./vm.h:27, from vmBoot.c:16:
  15084. /sprite/src/kernel/Include/net.h:96: parse error before `Afdress'
  15085.  
  15086. I looked at net.h and there was no such problem and the file was last
  15087. modified several days ago.  I did a !pmake and the compile succeeded.
  15088.  
  15089. Mary
  15090.  
  15091.  
  15092. Log-Number: 31700
  15093. Subject: Re: Non-deterministic compile errors 
  15094. Date: Tue, 05 Nov 91 16:18:26 PST
  15095. From: Mike Kupfer <kupfer>
  15096.  
  15097. Yes, there's something definitely peculiar going on.  I ran a bunch of
  15098. stuff through diff a day or two ago and noticed that random characters
  15099. in the diff output were replaced by control characters.
  15100.  
  15101. mike
  15102.  
  15103.  
  15104. Log-Number: 31703
  15105. Date: Tue, 5 Nov 91 16:33:42 PST
  15106. From: pmchen (Peter M. Chen)
  15107. Subject: lfs disk on mustard
  15108.  
  15109. After I rebooted mustard and started using the scratch disk, I got the
  15110. following infinite loop of error messages:
  15111.  
  15112. LfsSetSegUsage: Warning active bytes for segment 403 is -4096
  15113.  
  15114. The warnings started for segment 398 or so.
  15115.  
  15116. Pete
  15117.  
  15118.  
  15119. Log-Number: 31705
  15120. Subject: MIPS optimizer bug w/ function pointers
  15121. Date: Tue, 05 Nov 91 17:54:19 PST
  15122. From: Mike Kupfer <kupfer>
  15123.  
  15124.  
  15125. If you compile the appended file with "-g3 -O -c", the routine "foo"
  15126. gets optimized away into 
  15127.  
  15128.     foo:
  15129.   [bar.c:  11] 0x24:    03e00008    jr    ra
  15130.   [bar.c:  11] 0x28:    00000000    nop
  15131.  
  15132. (i.e., return immediately).
  15133.  
  15134. If you take away the (char *) cast, the code is not optimized away.
  15135.  
  15136. If you're wondering why this isn't a problem with the kernel, most of
  15137. the routines passed to Proc_NewProc are external, not static, and the
  15138. optimizer doesn't break external functions that way.  Also, (most of)
  15139. the calls in the DECstation mainInit are protected by a truly
  15140. disgusting cast:
  15141.  
  15142.     (void) Proc_NewProc((Address)(unsigned)(int (*)())Init, PROC_KERNEL,
  15143.             FALSE, &pid, "Init");
  15144.  
  15145. Anyway, this problem seems to have been fixed in the 2.0 compiler, so
  15146. we might want to think about installing the new compiler some time.
  15147.  
  15148. mike
  15149. --
  15150. int someInt;
  15151.  
  15152. static void foo();
  15153.  
  15154. void random()
  15155. {
  15156.     NewProc((char *)foo);
  15157. }
  15158.  
  15159. static void foo()
  15160. {
  15161.     printf("gurgle\n");
  15162. }
  15163.  
  15164.  
  15165. Log-Number: 31710
  15166. From: mendel (Mendel Rosenblum)
  15167. Subject: Hijack crash with 1.105 kernel
  15168. Date: Thu, 07 Nov 91 09:47:37 PST
  15169.  
  15170.  
  15171. Hijack died around 15:57 yesterday. Messages on the console said something
  15172. like:
  15173.  
  15174. badVaddr 0xc8403ae4
  15175. TLB Fault at PC 0x800a2bd8
  15176.  
  15177. The machine wouldn't respond to ping, kmsg, or kgdb.  I reset it and it
  15178. was in the dbg module in ReadRequest() waiting for a debugger packet.
  15179. My guess is that debugger didn't work because the net module quit
  15180. working.   
  15181.  
  15182. The initial fault occurred in bcopy().  The fault address is somewhere in
  15183. the virtual addresses that would have been allocated to the file cache
  15184. if the machine had more memory.
  15185.  
  15186.     Mendel
  15187.  
  15188.  
  15189. Log-Number: 31711
  15190. From: rab (Robert A. Bruce)
  15191. Subject: weird pmake heisenbug
  15192. Date: Thu, 07 Nov 91 11:53:51 PST
  15193.  
  15194. Every now and then pmake executes the wrong command.  Instead of
  15195. the command it is supposed to execute, it invokes the previous
  15196. command, but with the new arguments.  This is not repeatable
  15197. but has occured to me several times in the last few days.
  15198.  
  15199. Here is an example:
  15200. ------------------------------------------------------------------
  15201. making all in ./demos/xgas...
  15202. rm -f xgas
  15203. gcc -o xgas main.o dynamics.o chamber.o timestep.o molecule.o util.o
  15204.     help.o XGas.o doc.o quick.o man.o -O   ../.././lib/Xaw/libXaw.a
  15205.     ../.././lib/Xmu/libXmu.a ../.././lib/Xt/libXt.a
  15206.     ../.././extensions/lib/libXext.a
  15207.     ../.././lib/X/libX11.a -L/usr/X11R5/lib -lm  -B/usr/bin/
  15208. rm: illegal option -- o
  15209. usage: rm [-rif] file ...
  15210. *** Error code 1 (continuing)
  15211. ------------------------------------------------------------------
  15212.  
  15213. The problem is that although pmake claims to be running gcc, it is actually
  15214. running rm twice, but the second time it is invoked with the arguments that
  15215. are supposed to be passed to rm.
  15216.  
  15217. When I ran pmake again, it worked fine.
  15218.  
  15219.         -bob
  15220.  
  15221.  
  15222.  
  15223. Log-Number: 31712
  15224. Subject: Re: weird pmake heisenbug 
  15225. Date: Thu, 07 Nov 91 14:55:10 EST
  15226. From: Fred Douglis <douglis@MITL.COM>
  15227.  
  15228. There have been a few messages about problems along these lines.
  15229. Rings a bell -- like we used to have problems just like this a long
  15230. time ago, when the file offset wasn't being managed properly. Has
  15231. anyone fiddled with the migration and/or file system code recently?
  15232. Anyway, you might want to check the Sprite log (in fact, the older
  15233. logs, which may be separate from wherever messages go right now) and
  15234. see if a solution to this problem was presented 2-3 years ago...
  15235.  
  15236. Fred
  15237.  
  15238.  
  15239. Log-Number: 31713
  15240. Date: Thu, 7 Nov 91 16:43:28 PST
  15241. From: mani (Mani Varadarajan)
  15242. Subject: bug in ftp?
  15243.  
  15244.  
  15245. whenever i try to ftp to cory, it refuses my login. this happens
  15246. only from sprite machines:
  15247.  
  15248. (arson) mani % ftp cory
  15249. Connected to cory.Berkeley.EDU.
  15250. 220 cory.Berkeley.EDU FTP server (Ultrix Version 4.1 Mon Aug 27 19:11:56 EDT 199
  15251. 0) ready.
  15252. Name (cory:mani):
  15253. 331 Password required for mani.
  15254. Password:
  15255. 530 Login incorrect.
  15256. Login failed.
  15257. ftp> user
  15258. (username) mani
  15259. 331 Password required for mani.
  15260. Password:
  15261. 530 Login incorrect.
  15262. Login failed.
  15263. ftp>
  15264.  
  15265.  
  15266. from a non-sprite machine:
  15267.  
  15268. (villandry) mani % ftp cory
  15269. Connected to cory.berkeley.edu.
  15270. 220 cory.Berkeley.EDU FTP server (Ultrix Version 4.1 Mon Aug 27 19:11:56 EDT 199
  15271. 0) ready.
  15272. Name (cory:mani):
  15273. 331 Password required for mani.
  15274. Password:
  15275. 230 User mani logged in.
  15276. ftp>
  15277.  
  15278.  
  15279. this problem repeats. i can rlogin successfully to cory, however.
  15280.  
  15281. mani
  15282.  
  15283.  
  15284. Log-Number: 31721
  15285. Date: Sat, 9 Nov 91 10:57:21 PST
  15286. From: kupfer (Mike Kupfer)
  15287. Subject: compat mail is broken
  15288.  
  15289. If I type "/sprite/cmds.compat/mail bugs", I get no response.  That is,
  15290. I don't get prompted for a subject (despite the setting of my .mailrc),
  15291. ^C kills "mail" the first time (normally the first time just gives
  15292. a warning), and the ~ escapes don't seem to work.
  15293.  
  15294. mike
  15295.  
  15296.  
  15297. Log-Number: 31726
  15298. Subject: bogus use(s) of Vm_MakeAccessible
  15299. Date: Mon, 11 Nov 91 11:48:12 PST
  15300. From: Mike Kupfer <kupfer>
  15301.  
  15302. Here's an interesting bug in Test_RpcStub:
  15303.  
  15304.         Rpc_EchoArgs *echoArgsPtr = (Rpc_EchoArgs *)argPtr;
  15305.         Time deltaTime;
  15306.  
  15307.         Vm_MakeAccessible(VM_READONLY_ACCESS, sizeof(Rpc_EchoArgs),
  15308.                (Address) echoArgsPtr, &argSize,
  15309.                (Address *) (&echoArgsPtr));
  15310.         if (argSize != sizeof(Rpc_EchoArgs)) {
  15311.         return(RPC_INVALID_ARG);
  15312.         }
  15313.         Vm_MakeAccessible(VM_READONLY_ACCESS,
  15314.                   echoArgsPtr->size, echoArgsPtr->inDataPtr,
  15315.                   &inSize, &echoArgsPtr->inDataPtr);
  15316.  
  15317. The user program passes in a struct that has information about the RPC
  15318. test to be done.  Test_RpcStub maps the struct into the kernel's
  15319. address space so that it can safely access the fields of the struct. 
  15320. The next thing it tries to do is map the input buffer into the
  15321. kernel's address space.  Unfortunately, it wants to put the kernel
  15322. address of the buffer in the struct, overwriting the user address.
  15323.  
  15324. This works in native Sprite on our usual hardware because
  15325.  
  15326. (1) the user address is already available in the kernel address space
  15327.  
  15328. (2) the access type argument that is passed to Vm_MakeAccessible is
  15329. unused 
  15330.  
  15331. (3) on most hardware (i.e., everything except the Sequent), the user
  15332. address is the same as the kernel address.  (Also, callers of
  15333. Test_RpcStub might not assume that the struct's contents are preserved
  15334. across the call.)
  15335.  
  15336. mike
  15337.  
  15338.  
  15339. Log-Number: 31738
  15340. Date: Fri, 15 Nov 91 08:52:05 PST
  15341. From: pmchen (Peter M. Chen)
  15342. Subject: lfs, syslog messages
  15343.  
  15344. I've been pounding on my local lfs disk, and got the following message in my
  15345. syslog (this was on mustard, ds5000, running 1.105):
  15346.  
  15347. /user4/pmchen/t1: Cleaning started - deficit 7 segs
  15348. Can't fetch cache block <14018,2443> for cleaning.
  15349. /user4/pmchen/t1: Cleaned 186 segments in 19 segments
  15350. /user4/pmchen/t1: Cleaning started - deficit 32 segs
  15351. /user4/pmchen/t1: Cleaned 35 segments in 3 segments
  15352.  
  15353. I've seen the "cleaning started...cleaned x segments" before, but never the
  15354. "Can't fetch cache block" message.
  15355.  
  15356. Also, it would be nice to have all the messages which go to the syslog
  15357. timestamped somehow (now, some are and most aren't).  That way I can
  15358. link some anomalies of performance to allspice crashes, lfs cleaning, etc.
  15359. Can this be done for all syslog messages?   Maybe at least for the common
  15360. ones, such as the cleaning messages and the RpcDoCall: hung...ok.
  15361.  
  15362. Pete
  15363.  
  15364.  
  15365. Log-Number: 31745
  15366. Date: Fri, 15 Nov 91 20:45:44 -0800
  15367. From: clarsen@postgres.Berkeley.EDU (Case Larsen)
  15368. Subject: ether addr.
  15369.  
  15370. The ethernet address for babylon changed.  Allspice doesn't seem to 
  15371. think so.  I'm told it's a bug.
  15372.  
  15373. Thanks
  15374. --
  15375. Case
  15376.  
  15377. [21-Nov-91: theoretically this bug has been fixed.  Of course, you
  15378. have to rerun netroute first... -mdk] 
  15379.  
  15380.  
  15381. Log-Number: 31748
  15382. Date: Sun, 17 Nov 91 12:25:48 PST
  15383. From: mottsmth (Jim Mott-Smith)
  15384. Subject: Timer queue messed up again...
  15385.  
  15386.  
  15387. I just 'L1-a continued' it.
  15388. -- Jim M-S
  15389.  
  15390.  
  15391. Log-Number: 31749
  15392. Date: Sun, 17 Nov 91 15:12:25 PST
  15393. From: ouster (John Ousterhout)
  15394. Subject: Allspice load
  15395.  
  15396. Allspice's load factor has been going through the roof this afternoon,
  15397. bouncing from 5 to 1 to 7 again.  Does anybody have any idea what
  15398. could be causing this?
  15399.                     -John-
  15400.  
  15401.  
  15402. Log-Number: 31750
  15403. Date: Sun, 17 Nov 91 22:05:16 PST
  15404. From: mottsmth (Jim Mott-Smith)
  15405. Subject: Award winning telnetd code...
  15406.  
  15407. Here's a crufty piece from telnetd.c:
  15408. Do you trust the 'if' statement?
  15409.  
  15410.     dontoption(option)
  15411.     int option;
  15412.     {
  15413.         char *fmt;
  15414.     
  15415.         switch (option) {
  15416.         case TELOPT_ECHO:        /* we should stop echoing */
  15417.         mode(0, ECHO);
  15418.         fmt = wont;
  15419.         break;
  15420.  
  15421.         default:
  15422.         fmt = wont;
  15423.         break;
  15424.         }
  15425.         
  15426.         if (fmt = wont) {
  15427.         myopts[option] = OPT_NO;
  15428.         } else {
  15429.         myopts[option] = OPT_YES;
  15430.         }
  15431.         (void) sprintf(nfrontp, fmt, option);
  15432.         nfrontp += sizeof (wont) - 2;
  15433.     }
  15434.  
  15435.  
  15436. We should probably get the latest n' greatest version
  15437. (which has this procedure removed) and install it.
  15438.  
  15439. -- Jim M-S
  15440.  
  15441.  
  15442. Log-Number: 31764
  15443. Date: Wed, 20 Nov 91 09:33:49 PST
  15444. From: elm (ethan miller)
  15445. Subject: Possible problem with telnetd?
  15446.  
  15447. Several times I've been disconnected from terrorism while logged in from
  15448. Supercomputing '91.  The message has been "host terminated connection,"
  15449. so it's something terrorism was doing.  Are there any known bugs in
  15450. either telnetd or inetd that could cause this?
  15451.  
  15452. ethan
  15453.  
  15454.  
  15455. Log-Number: 31751
  15456. Date: Mon, 18 Nov 91 13:58:07 PST
  15457. From: pmchen (Peter M. Chen)
  15458. Subject: fscmd -f after a prefix -U
  15459.  
  15460. I just crashed mustard (ds5000) after unmounting the local disk, deleting the
  15461. prefix, then flushing the cache with fscmd -f.  The error message said something
  15462. about pointer pointing to an invalid block.
  15463.  
  15464. I haven't tried to repeat this.  This was on 1.106.
  15465.  
  15466. Shouldn't prefix -U make sure that all dirty blocks are written to disk
  15467. before unmounting?
  15468.  
  15469. Pete
  15470.  
  15471.  
  15472. Log-Number: 31756
  15473. Date: Mon, 18 Nov 91 19:57:55 PST
  15474. From: pfile (Rob Pfile)
  15475. Subject: sendmail death
  15476.  
  15477.  
  15478. sendmail seems to have died sometime after 5:30 today. Although in the
  15479. process table it doesnt seem abnormal, test mail to myself is backed
  15480. up on a non-sprite machin, where the mailq program reports that 
  15481. sprite is down.
  15482.  
  15483. i'm a gonna restart sendmail.
  15484.  
  15485. rob
  15486.  
  15487.  
  15488. Log-Number: 31757
  15489. Subject: "wrong server ID" RPCs from allspice
  15490. Date: Tue, 19 Nov 91 12:21:13 PST
  15491. From: Mike Kupfer <kupfer>
  15492.  
  15493. I've been seeing in sage's and oregano's syslogs a fair number of
  15494. messages like
  15495.  
  15496.   Warning: Rpc_Dispatch, wrong server ID 18
  15497.       RPC 2 flags 214 Client 14 at address: 08:00:20:00:05:6d
  15498.  
  15499. The server ID and RPC number vary.  The flags always seem to be 214
  15500. (ACK|SERVER|CLOSE), and the sender is always allspice.  These messages
  15501. are also showing up in raid1's and lust's syslogs (though in lust's
  15502. case the sender isn't always allspice).
  15503.  
  15504. mike
  15505.  
  15506.  
  15507. Log-Number: 31758
  15508. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  15509. Date: Tue, 19 Nov 1991 12:28:23 PST
  15510. Subject: Re: "wrong server ID" RPCs from allspice
  15511.  
  15512. This is a known bug (eg #00671) that has been around for a while. 
  15513. It has something to do with sending ack packets at interrupt level.
  15514.  
  15515. John
  15516.  
  15517.  
  15518.  
  15519. Log-Number: 31767
  15520. Subject: mysterious lust crash
  15521. Date: Wed, 20 Nov 91 20:51:57 PST
  15522. From: Mike Kupfer <kupfer>
  15523.  
  15524. Lust died running the 1.105 kernel.  It got itself into an infinite
  15525. loop of
  15526.  
  15527.   LE ethernet: Bogus receive interrupt.  Buffer 0xbe804028 owned by chip.
  15528.   Entering debugger...
  15529.   LE ethernet: Bogus receive interrupt. ...
  15530.  
  15531. I reset it and booted the 1.106 kernel.
  15532.  
  15533. mike
  15534.  
  15535.  
  15536. Log-Number: 31768
  15537. Subject: "dup2: invalid argument"
  15538. Date: Wed, 20 Nov 91 21:06:55 PST
  15539. From: Mike Kupfer <kupfer>
  15540.  
  15541. With the 1.106 kernel, and perhaps with earlier kernels, 
  15542. "shutdown -S 0" yields a message
  15543.  
  15544.   dup2: invalid argument
  15545.  
  15546. The system shuts down okay, but I have to wonder what's causing that
  15547. message.
  15548.  
  15549. mike
  15550.  
  15551. [5-Dec-1991: this is probably from "shutdown"'s invoking "wall -l".
  15552. Use "shutdown -q" instead of "shutdown -S 0". -mdk]
  15553.  
  15554.  
  15555. Log-Number: 31769
  15556. Subject: multiple copies of exit() when linking pmake on ds3100
  15557. Date: Thu, 21 Nov 91 21:52:21 PST
  15558. From: Mike Kupfer <kupfer>
  15559.  
  15560. When I try to link pmake on a DECstation, I get
  15561.  
  15562.   /usr/lib/libc_g.a(exit.go): exit: multiply defined
  15563.  
  15564. Sure enough, the pmake main.c defines its own version of exit().  I
  15565. think that ld wants to load in the libc exit() so it can satisfy some
  15566. global variables that the libc exit.c defines.  (These variables are
  15567. used by atexit().) 
  15568.  
  15569. Obviously we used to be able to link pmake.  I think the problem
  15570. results from recent changes to the libc exit.c and atexit.c.  Maybe we
  15571. need a separate exitVars.c whose sole purpose in life is to define
  15572. these global variables.
  15573.  
  15574. mike
  15575.  
  15576. P.S. My temporary workaround will be to turn off the exit() in pmake's
  15577. main.c and just use the libc exit().  
  15578.  
  15579.  
  15580. Log-Number: 31770
  15581. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  15582. Date: Fri, 22 Nov 1991 11:05:59 PST
  15583. Subject: bug in freopen
  15584.  
  15585.  
  15586. I've fixed a bug in freopen and installed a new C library containing
  15587. the fix.  There was a test for STDIO_NOT_OUR_BUF that was backwards,
  15588. so that the wrong buffer would get used when the stream was
  15589. reinitialized.  In most cases it worked ok, except if the user had
  15590. done a setbuf or one of its variants, in which case the buffer
  15591. would be lost and a standard buffer substituted in its place, or
  15592. if the user did an freopen of a closed stream, in which case the
  15593. application would die.  Freopen on a closed stream is not an
  15594. officially supported operation, but some applications do it anyway
  15595. (I guess it works on Unix).
  15596.  
  15597. John
  15598.  
  15599.  
  15600. Log-Number: 31771
  15601. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  15602. Date: Fri, 22 Nov 1991 11:56:10 PST
  15603. Subject: libc problem
  15604.  
  15605.  
  15606. There is something wrong with the installation process for libc.
  15607. I installed a new libc for the sun3 and sun4's, but the resulting
  15608. library caused the following error in ld: 
  15609.  
  15610. ld: malformatted header of archive member in /sprite/lib/sun4.md/libc.a
  15611.  
  15612.  
  15613. I had to go to /sprite/lib/sun{4,3}.md and do
  15614.  
  15615. ar d libc.a __.SYMDEF
  15616.  
  15617. followed by ranlib to get things to work.
  15618.  
  15619. John
  15620.  
  15621.  
  15622. Log-Number: 31777
  15623. From: rab (Robert A. Bruce)
  15624. Subject: greed's local disk
  15625. Date: Fri, 22 Nov 91 15:04:27 PST
  15626.  
  15627. Greed's local disk will not work with either the 105th or 106th
  15628. kernel.  The 99th kernel works fine.
  15629.  
  15630. The new kernels think that /graphics is an lfs filesystem, but I
  15631. don't think it really is.
  15632.  
  15633.         -bob
  15634.  
  15635.  
  15636.  
  15637. Log-Number: 31778
  15638. Subject: too many revisions in aliases file (RCS bug)
  15639. Date: Fri, 22 Nov 91 15:07:59 PST
  15640. From: Mike Kupfer <kupfer>
  15641.  
  15642. I just checked in revision 1.240 of /sprite/lib/sendmail/aliases. 
  15643. When I attempted to do an rlog (to verify that "deleteuser" was
  15644. generating correct log messages), I got
  15645.  
  15646.   rlog error, line 1202: Hashtable overflow
  15647.   rlog aborted
  15648.  
  15649. Other RCS programs (co, rcs) behaved the same way.  I renamed the RCS
  15650. file to aliases,v.tooBig and made a new one.
  15651.  
  15652. mike
  15653.  
  15654.  
  15655. Log-Number: 31780
  15656. Subject: Fs_UserClose can return wrong value?
  15657. Date: Fri, 22 Nov 91 21:33:35 PST
  15658. From: Mike Kupfer <kupfer>
  15659.  
  15660. Consider the following code from Fs_UserClose:
  15661.  
  15662.     status = Fs_GetStreamPtr(procPtr, streamID, &streamPtr);
  15663.     if (status != SUCCESS) {
  15664.     /*
  15665.      * Fudge the return status.  A close() can only return EBADF or
  15666.      * EINTR, so return something that maps to EBADF even if it
  15667.      * doesn't make sense here.  Sprite system calls are going
  15668.      * away soon anyway.
  15669.      */
  15670.     if (status != GEN_ENOENT) {
  15671.         return(FS_NEW_ID_TOO_BIG);
  15672.     }
  15673.     return(status);
  15674.     }
  15675.  
  15676. It seems to me that this code returns either ENOENT or EBADF, rather
  15677. than EINTR.  I think the test should be
  15678.  
  15679.     if (status != GEN_EINTR) {
  15680.         return(FS_NEW_ID_TOO_BIG);
  15681.     }
  15682.  
  15683.  
  15684. mike
  15685.  
  15686.  
  15687. Log-Number: 31782
  15688. Date: Sat, 23 Nov 91 12:55:09 PST
  15689. From: shirriff@ginger.Berkeley.EDU (Ken Shirriff)
  15690. Subject: Allspice mystery crash
  15691.  
  15692. Allspice was down this morning.  Its console was full
  15693. of entering debugger messages.  I couldn't attach the
  15694. debugger so I reset and rebooted it.
  15695.  
  15696. Ken
  15697.  
  15698.  
  15699. Log-Number: 31783
  15700. Subject: unused arguments in fscacheBlocks.c
  15701. Date: Sun, 24 Nov 91 16:43:39 PST
  15702. From: Mike Kupfer <kupfer>
  15703.  
  15704. Lint complains about unused arguments to assorted routines in the
  15705. fscache module.  Anyone know what the scoops is on these routines
  15706. (e.g., are the unused arguments no longer needed)?
  15707.  
  15708. mike
  15709. --
  15710. fscacheBlocks.c:
  15711. fscacheBlocks.c(1672): warning: argument writeTmpFiles unused in function CacheWriteBack
  15712. fscacheBlocks.c(2578): warning: argument onFront unused in function Fscache_ReturnDirtyFile
  15713. fscacheBlocks.c(2909): warning: argument backendPtr unused in function Fscache_ReserveBlocks
  15714. fscacheBlocks.c(2959): warning: argument backendPtr unused in function Fscache_ReleaseReserveBlocks
  15715.  
  15716.  
  15717. Log-Number: 31787
  15718. From: mendel (Mendel Rosenblum)
  15719. Subject: Re: unused arguments in fscacheBlocks.c 
  15720. Date: Mon, 25 Nov 91 17:09:04 PST
  15721.  
  15722. >
  15723. > Lint complains about unused arguments to assorted routines in the
  15724. > fscache module.  Anyone know what the scoops is on these routines
  15725. > (e.g., are the unused arguments no longer needed)?
  15726. > mike
  15727. > --
  15728.  
  15729. These are caused by several different things.
  15730. > fscacheBlocks.c(1672): warning: argument writeTmpFiles unused in
  15731. function CacheWriteBac
  15732.  
  15733. This was left over from the many different write policies that Mike Nelson
  15734. added for his thesis.  It could be removed without any problem.
  15735.  
  15736. > fscacheBlocks.c(2578): warning: argument onFront unused in function
  15737. Fscache_ReturnDirtyFile
  15738.  
  15739.    I don't know about this one.  I suspect that it was designed for future
  15740.    expansion that never happened.
  15741.  
  15742. > fscacheBlocks.c(2909): warning: argument backendPtr unused in
  15743. function Fscache_ReserveBlocks
  15744. > fscacheBlocks.c(2959): warning: argument backendPtr unused in
  15745. function Fscache_ReleaseReserveBlocks
  15746.  
  15747.   Arguments are included for consistency with other calls.  That is, all
  15748.   calls of this form take the backendPtr as the first argument even if
  15749.   the current implmenetation doesn't use it.  
  15750.  
  15751.  
  15752.         Mendel
  15753.  
  15754.  
  15755. Log-Number: 31784
  15756. Date: Mon, 25 Nov 91 14:53:48 PST
  15757. From: shirriff (Ken Shirriff)
  15758. Subject: Lust crash - ethernet reset
  15759.  
  15760. Lust crashed with the following:
  15761. resetting network interface PMAD-AA
  15762. Deferring reset
  15763. LE ethernet: transmit buffer owned by chip
  15764. Fatal Error: Can not output first packet on restart.
  15765.  
  15766.  
  15767. Log-Number: 31785
  15768. Date: Mon, 25 Nov 91 16:00:04 PST
  15769. From: elm (ethan miller)
  15770. Subject: problems with sending mail from emacs on ds3100
  15771.  
  15772. Sending mail from heresy (a ds3100) to elm or elm@ginger results in a
  15773. Bad user TLB fault in process e4898: pc=463754 addr=646e6553
  15774.  
  15775. This bug is repeatable.  It happens when an emacs on heresy tries to
  15776. send mail (use C-x m to get a mail buffer, and then send it off).  The
  15777. addresses elm or elm@ginger will cause this error.  I don't know
  15778. about other ones.  The mail sent in this way never reaches either
  15779. recipient or (as an error message) sender.
  15780.  
  15781. ethan
  15782.  
  15783.  
  15784. Log-Number: 31788
  15785. Subject: Re: problems with sending mail from emacs on ds3100 
  15786. Date: Mon, 25 Nov 91 22:44:24 PST
  15787. From: Mike Kupfer <kupfer>
  15788.  
  15789.  
  15790. I think the problem has something to do with vfork and the stack. 
  15791. Emacs alloca's an argument array, vforks, and passes the array to the
  15792. child, which is supposed to exec sendmail.  The string addresses in
  15793. the parent are
  15794.  
  15795.   new_argv[0] = (0x854a20) `/usr/lib/sendmail'
  15796.   new_argv[1] = (0x891210) `-oi'
  15797.   new_argv[2] = (0x891218) `-t'
  15798.   new_argv[3] = (0x891234) `-oem'
  15799.   new_argv[4] = (0x891240) `-odb'
  15800.  
  15801. The addresses in the child are 
  15802.  
  15803.   (gdb) print new_argv[0]
  15804.   $1 = 0x646e6553<Address 0x646e6553 out of bounds>
  15805.   (gdb) print new_argv[1]
  15806.   $2 = 0x2e676e69<Address 0x2e676e69 out of bounds>
  15807.   (gdb) print new_argv[2]
  15808.   $3 = 0x6f642e2e<Address 0x6f642e2e out of bounds>
  15809.   (gdb) print new_argv[3]
  15810.   $4 = 0x656e<Address 0x656e out of bounds>
  15811.   (gdb) print new_argv[4]
  15812.   $5 = 0x891240 "-odb"
  15813.  
  15814. As a workaround, I'll hack Emacs to use fork() instead of vfork().
  15815.  
  15816. mike
  15817.  
  15818.  
  15819. Log-Number: 31789
  15820. Subject: more mips compiler flakiness (whining)
  15821. Date: Tue, 26 Nov 91 16:56:08 PST
  15822. From: Mike Kupfer <kupfer>
  15823.  
  15824. Compiled with -g3 -O, the following lines of code (the starting line
  15825. number is 276)
  15826.  
  15827.     if (!migrated) {
  15828.     ProcSetupEnviron(procPtr);
  15829.     }
  15830.     
  15831.     Fs_InheritState(parentProcPtr, procPtr);
  15832.  
  15833. get compiled into
  15834.  
  15835.   [procFork.c: 276] 0x330:    8fa90020    lw    t1,32(sp)
  15836.   [procFork.c: 276] 0x334:    00000000    nop
  15837.   [procFork.c: 276] 0x338:    15200003    bne    t1,zero,0x348
  15838.   [procFork.c: 276] 0x33c:    00000000    nop
  15839.   [procFork.c: 277] 0x340:    0c000000    jal    ProcSetupEnviron
  15840.   [procFork.c: 277] 0x344:    02002021    move    a0,s0
  15841.   [procFork.c: 285] 0x348:    8e020014    lw    v0,20(s0)
  15842.   [procFork.c: 285] 0x34c:    00000000    nop
  15843.   [procFork.c: 285] 0x350:    30420002    andi    v0,v0,0x2
  15844.   [procFork.c: 285] 0x354:    10400008    beq    v0,zero,0x378
  15845.   [procFork.c: 285] 0x358:    8faa0024    lw    t2,36(sp)
  15846.   [procFork.c: 286] 0x35c:    8fa40024    lw    a0,36(sp)
  15847.   [procFork.c: 286] 0x360:    0c000000    jal    Fs_InheritState
  15848.   [procFork.c: 286] 0x364:    02002821    move    a1,s0
  15849.  
  15850. Note the funky test before the call to Fs_InheritState.  With the
  15851. optimizer off we get
  15852.  
  15853.   [procFork.c: 276] 0x474:    8faf0020    lw    t7,32(sp)
  15854.   [procFork.c: 276] 0x478:    00000000    nop
  15855.   [procFork.c: 276] 0x47c:    15e00004    bne    t7,zero,0x490
  15856.   [procFork.c: 276] 0x480:    00000000    nop
  15857.   [procFork.c: 277] 0x484:    8fa40028    lw    a0,40(sp)
  15858.   [procFork.c: 277] 0x488:    0c000000    jal    ProcSetupEnviron
  15859.   [procFork.c: 277] 0x48c:    00000000    nop
  15860.   [procFork.c: 280] 0x490:    8fa40024    lw    a0,36(sp)
  15861.   [procFork.c: 280] 0x494:    8fa50028    lw    a1,40(sp)
  15862.   [procFork.c: 280] 0x498:    0c000000    jal    Fs_InheritState
  15863.   [procFork.c: 280] 0x49c:    00000000    nop
  15864.  
  15865. Can we puleeeze puleeeze get the new MIPS compiler installed soon?
  15866.  
  15867. mike
  15868.  
  15869.  
  15870. Log-Number: 31790
  15871. From: rab (Robert A. Bruce)
  15872. Subject: allspice hung
  15873. Date: Tue, 26 Nov 91 22:45:19 PST
  15874.  
  15875. Allspice hung about an hour ago.  I took a core dump
  15876. and rebooted.
  15877.  
  15878.         -bob
  15879.  
  15880.  
  15881.  
  15882. Log-Number: 31791
  15883. Date: Wed, 27 Nov 91 12:17:36 PST
  15884. From: pmchen (Peter M. Chen)
  15885. Subject: /dev/null write permissions wrong
  15886.  
  15887. When I logged on (mustard, ds5000, 1.106), I found /dev/null to look like:
  15888.  
  15889. crw-r--r--  1 root       6,   0 Nov 27 12:13 /dev/null
  15890.  
  15891. So I chmod'ed it on allspice to
  15892.  
  15893. crw-rw-rw-  1 root       6,   0 Nov 27 12:16 /dev/null
  15894.  
  15895.  
  15896. Pete
  15897.  
  15898.  
  15899. Log-Number: 31793
  15900. Date: Wed, 27 Nov 91 13:42:38 PST
  15901. From: tve (Thorsten von Eicken)
  15902. Subject: tar s option doesn't seem to work
  15903.  
  15904. The tar man page claims that the s option can be used to strip leading
  15905. slashes off pathnames. I'm restoring files from an "absolute" tar archive
  15906. and can't get tar to put the files in the current directory (which is what
  15907. the s option should do, right?).
  15908. Bug?
  15909.     TvE
  15910.  
  15911.  
  15912. Log-Number: 31795
  15913. From: rab (Robert A. Bruce)
  15914. Subject: Re: tar s option doesn't seem to work 
  15915. Date: Wed, 27 Nov 91 15:21:34 PST
  15916.  
  15917. > I think the man page is for the GNU tar, which is installed as tar.gnu.
  15918.  
  15919. Um.  Well, actually the situation is more complicated than that.  Both
  15920. tar and tar.gnu are gnu tar.  Tar is an old version, and tar.gnu is the
  15921. newer version.  It was installed as tar.gnu until we were sure there
  15922. were no problems with it, and no one ever went back an renamed it.
  15923.  
  15924. The man page is for the old unix tar, so a lot of the thing in it are
  15925. wrong.  I have been meaning to write a man page for gnu tar, but I forgot
  15926. about it till now.
  15927.  
  15928. Anyway, if you use tar.gnu, it will strip off leading /'s by defaualt.
  15929. You have to give it an option to make it use absolute path names.
  15930.  
  15931. -P, +absolute-paths     don't strip leading "/"es from file names
  15932.  
  15933. You can get a complete set of options by typing `` tar.gnu +help ''.
  15934.  
  15935. I will install tar.gnu as the default tar and make sure dump and restore
  15936. are set up to exec the correct one.
  15937.  
  15938.     -bob
  15939.  
  15940.  
  15941.  
  15942. Log-Number: 31797
  15943. Date: Thu, 28 Nov 91 17:08:35 PST
  15944. From: pmchen (Peter M. Chen)
  15945. Subject: stickiness lost
  15946.  
  15947. I have a couple sticky files which, every so often, seem to become unsticky.
  15948. This was on mustard, ds5000, running 1.106, but it's happened using other
  15949. kernels.
  15950.  
  15951. This was the file stat after it lost its stickiness
  15952. mustard% ls -l migDisallow
  15953. -rwx--x--t  1 root           32 Nov 25 16:07 migDisallow*
  15954.  
  15955. This was the file stat before (I think) it lost its stickiness
  15956. mustard-3# chmod 7711 !$
  15957. chmod 7711 mig*
  15958. mustard-4# !ls
  15959. ls -l mig*
  15960. -rws--s--t  1 root           31 Nov 25 16:07 migAllow*
  15961. -rws--s--t  1 root           32 Nov 25 16:07 migDisallow*
  15962.  
  15963. This is in ~pmchen/bench/adaptWl.
  15964.  
  15965. Pete
  15966.  
  15967.  
  15968. Log-Number: 31800
  15969. Subject: Re: stickiness lost 
  15970. Date: Sat, 30 Nov 91 12:29:28 PST
  15971. From: Mike Kupfer <kupfer>
  15972.  
  15973. "s" means setuid/setgid, not "sticky".  The "t" indicates stickiness.
  15974.  
  15975. There might be a cron job that is turning off the setuid/setgid bits,
  15976. though I didn't see it when I looked in the system crontabs.
  15977.  
  15978. Having setuid shell scripts is a major security hole, though I suppose
  15979. it's not any worse than some of the other Sprite security holes.
  15980. Still, I don't see what you need those scripts for, or at least I
  15981. don't see why they have to be setuid to root.  (Nor does there seem to
  15982. be much point in making them sticky, come to think of it.)
  15983.  
  15984. mike
  15985.  
  15986.  
  15987. Log-Number: 31801
  15988. Subject: Re: stickiness lost - oops
  15989. Date: Sat, 30 Nov 91 13:57:14 PST
  15990. From: Mike Kupfer <kupfer>
  15991.  
  15992. Oops, for my previous message I tried running "migcmd -I" to see
  15993. whether you had to be root, and I think I accidently ran it from a
  15994. root shell.
  15995.  
  15996. There are ways to conveniently enable/disable migration that are safer
  15997. than what you currently have.  One is to write a setuid C program that
  15998. invokes migcmd via the system() library routine.  Unfortunately, this
  15999. isn't completely straightforward, because system() relies on having a
  16000. reasonable path set up.  A second option is to take away all access to
  16001. "other" (i.e., mode 4750) for your scripts.   (Or at least I think
  16002. this will be secure.)
  16003.  
  16004. mike
  16005.  
  16006.  
  16007. Log-Number: 31798
  16008. Date: Fri, 29 Nov 91 17:05:05 PST
  16009. From: shirriff (Ken Shirriff)
  16010. Subject: /scratch1 unmounted
  16011.  
  16012. I unmounted /scratch1 because it is failing.  Allspice crashed twice due
  16013. to hardware errors on /scratch1.
  16014.  
  16015.  
  16016. Log-Number: 31804
  16017. From: rab (Robert A. Bruce)
  16018. Subject: LfsSetSegUsage fatal error
  16019. Date: Mon, 02 Dec 91 00:18:56 PST
  16020.  
  16021. Lust crashed.
  16022.  
  16023. Fatal error: LfsSetSegUsage bad sement number 776541
  16024.  
  16025. I tried to take a core dump from ginger but it didn't work.
  16026. Is kgcore supposed to work with decStations?
  16027.  
  16028.         -bob
  16029.  
  16030.  
  16031.  
  16032. Log-Number: 31805
  16033. From: rab (Robert A. Bruce)
  16034. Subject: cleaning loop
  16035. Date: Mon, 02 Dec 91 02:32:13 PST
  16036.  
  16037. Allspice got stuck in a loop while cleaning /user2.  There was a long
  16038. stream of messages like this:
  16039.  
  16040. /user2:  Cleaning started  -- deficit 32 segs
  16041. /user2:  Cleaned 6174 segments in 6890
  16042. /user2:  Cleaning started  -- deficit 32 segs
  16043. /user2:  Cleaned 6178 segments in 6895
  16044. /user2:  Cleaning started  -- deficit 32 segs
  16045. /user2:  Cleaned 6182 segments in 6900
  16046. /user2:  Cleaning started  -- deficit 32 segs
  16047. /user2:  Cleaned 6186 segments in 6905
  16048. ....
  16049.  
  16050. Each time the first number increased by 4 and the second number
  16051. increased by 5.  I tried to put allspice in the debugger.  I hit
  16052. break-W to sync the disks and then break-D.  But allspice hung
  16053. while syncing the disks and I had to hit the watchdog reset.
  16054.  
  16055.         -bob
  16056.  
  16057.  
  16058.  
  16059. Log-Number: 31806
  16060. Date: Mon, 2 Dec 91 08:34:04 PST
  16061. From: ouster (John Ousterhout)
  16062. Subject: Allspice hung this morning
  16063.  
  16064. When I came in Allspice wasn't responding to clients, but seemed
  16065. OK from the console.  I L1-A'ed and continued it, and then everyone
  16066. recovered, except tyranny and sedition.  Both of these machines went
  16067. into infinite recovery loops doing recovery, then producing a console
  16068. message on Allspice something like "FsRmtClientVerify: no such handle ...",
  16069. then recovering again.  I rebooted both of these machines remotely.
  16070.  
  16071.                     -John-
  16072.  
  16073.  
  16074. Log-Number: 31807
  16075. From: culler (David Culler)
  16076. Subject: Booting a DS3100
  16077. Date: Mon, 02 Dec 91 10:22:55 PST
  16078.  
  16079. In trying to boot Cardamom this morning (Turkey day had sent it into the
  16080. debugger) I tried
  16081.  
  16082. boot -f mop()new
  16083.  
  16084. It hung after printing: configuring cache
  16085.  
  16086. boot -f mop()
  16087.  
  16088. worked fine.
  16089.  
  16090.   D.
  16091.  
  16092.  
  16093. Log-Number: 31809
  16094. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  16095. Date: Mon, 2 Dec 1991 14:19:34 PST
  16096. Subject: makedepend of kernel sources
  16097.  
  16098.  
  16099. Symbolic links have recently been added to /sprite/src/kernel/Include
  16100. of the form mach.h -> $MACHINE.md/mach.h.  Unfortunately when
  16101. makedepend is run in the kernel sources it often comes up with the
  16102. wrong mach.h file.  This happens if I run makedepend for a different
  16103. machine type than my current host.  The -I options to makedepend
  16104. tell it to look in the machine dependent directories first, so the
  16105. symbolic link should never be seen.  Somehow makedepend is looking
  16106. in the machine independent directory first and getting the wrong
  16107. mach.h.  This happens in the dev module and the vm module.  Try
  16108. running "pmake depend TM=sun4" while logged on to a ds3100.
  16109.  
  16110. John
  16111.  
  16112.  
  16113.  
  16114. Log-Number: 31820
  16115. Date: Tue, 3 Dec 91 23:58:47 PST
  16116. From: shirriff (Ken Shirriff)
  16117. Subject: Re: makedepend problems
  16118.  
  16119. The problem with makedepend is that it would look in the current directory
  16120. if you include <foo.h>, but it should only look in the current directory
  16121. if you include "foo.h".
  16122.  
  16123. I've installed a patched makedepend that should fix this problem.  It seems
  16124. to work, but I wouldn't be surprised if something else breaks.
  16125.  
  16126. Ken
  16127.  
  16128.  
  16129. Log-Number: 31811
  16130. Date: Mon, 2 Dec 91 16:11:25 PST
  16131. From: shirriff (Ken Shirriff)
  16132. Subject: Lust network deadlock
  16133.  
  16134. Lust died:
  16135. resetting network interface PMAD-AA
  16136. Deferring reset
  16137. LE ethernet: Deadlock (*) @0x8011c5e0
  16138. HolderPC: 0x800ae7e0 currentPC 0x800ac9b8
  16139. Entering debugger at 800e506c
  16140. (Note: (*) is N with a tilde above it; I don't know why that was in the
  16141. error message.)
  16142.  
  16143.  
  16144. Log-Number: 31812
  16145. Date: Mon, 2 Dec 91 16:33:20 PST
  16146. From: mendel (Mendel Rosenblum)
  16147. Subject: Re: Lust network deadlock
  16148.  
  16149. > LE ethernet: Deadlock (*) @0x8011c5e0
  16150. > HolderPC: 0x800ae7e0 currentPC 0x800ac9b8
  16151. > Entering debugger at 800e506c
  16152.  
  16153. The problem is that NetLEOutput() calls NetLERestart() if the call to
  16154. OutputPacket() returns an error.  Since both NetLEOutput() and NetLERestart()
  16155. start by grabing the master lock on the interface we get a deadlock.
  16156.  
  16157.     Mendel
  16158.  
  16159.  
  16160. Log-Number: 31813
  16161. Subject: load on allspice
  16162. Date: Mon, 02 Dec 91 18:20:02 PST
  16163. From: Mike Kupfer <kupfer>
  16164.  
  16165.  
  16166. Well, allspice is getting the stuffing beaten out of it: the load is
  16167. around 13, and it's impossible to log on because of the lack of
  16168. response at the console.
  16169.  
  16170. (1) I saw a lot of "reinit rcv unit" messages on allspice's console. 
  16171. Isn't there a buffer limit or something that we can raise to make this
  16172. problem go away?  (My understanding is that reinitializing the net
  16173. causes positive feedback--i.e., makes the network load worse--because
  16174. it locks out communication, which leads to retransmissions, so this
  16175. seems like something we should try to fix.)
  16176.  
  16177. (2) /user6 and, to a lesser extent, /swap1 are getting used heavily. 
  16178. Who's using them?  Beats me--the RPC trace is turned off by default,
  16179. and you have to log in to turn it on.  Either we should leave it on by
  16180. default, or there should be an L1 command to toggle it on/off.  (Also,
  16181. L1-z should report whether it's on or off.)
  16182.  
  16183. (3) L1-r showed a bunch of sendmails.  From looking at the mail
  16184. queue, I imagine they're the sendmails that are processing tcl
  16185. mailing list messages.  The current sendmail config file will start up
  16186. new sendmails until the load gets to 8.  Should we make this smaller? 
  16187. (I think the sendmail load is small compared to the RPC load, though.)
  16188.  
  16189. mike
  16190.  
  16191. [5-Dec-1991: re: (1), from discussion at the Sprite meeting: it's not
  16192. practical to raise the number of buffers to the point where it would
  16193. actually make a difference.  Also, "reinit rcv unit" isn't as expensive
  16194. as resetting the entire network interface. -mdk]
  16195.  
  16196.  
  16197. Log-Number: 31814
  16198. Date: Mon, 2 Dec 91 22:00:03 PST
  16199. From: shirriff (Ken Shirriff)
  16200. Subject: Mail problem
  16201.  
  16202. I tried sending myself mail from shallot to see if mail is getting through
  16203. and I got the following reply:
  16204.  
  16205. |From MAILER-DAEMON@shallot.berkeley.edu Mon Dec  2 21:52:56 1991
  16206. |Date: Mon, 2 Dec 91 21:52:46 PST
  16207. |From: MAILER-DAEMON@shallot.berkeley.edu (Mail Delivery Subsystem)
  16208. |Subject: Returned mail: Remote protocol error
  16209. |To: shirriff@shallot.berkeley.edu
  16210.  
  16211. |   ----- Transcript of session follows -----
  16212. |554 shirriff@sprite... Remote protocol error
  16213.  
  16214. |   ----- Unsent message follows -----
  16215. |Received: by shallot.Berkeley.EDU (4.1/1.42)
  16216. |    id AA23026; Mon, 2 Dec 91 21:52:46 PST
  16217. |Date: Mon, 2 Dec 91 21:52:46 PST
  16218. |From: shirriff (Ken Shirriff)
  16219. |Message-Id: <9112030552.AA23026@shallot.Berkeley.EDU>
  16220. |To: shirriff@sprite
  16221. |Subject: test
  16222.  
  16223. I don't know what a remote protocol error is.  I received the above bounce
  16224. message successfully on sprite.  I sent another message and it got through.
  16225. There are a couple messages people have sent me that haven't gotten through.
  16226.  
  16227. Ken
  16228.  
  16229.  
  16230. Log-Number: 31817
  16231. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  16232. Date: Tue, 3 Dec 1991 16:32:05 PST
  16233. Subject: allspice crash due to rename
  16234.  
  16235.  
  16236. Allspice crashed earlier today due to a bug in rename.  Actually,
  16237. the rename problem caused it to hang RPCs.  L1-i finished it off.
  16238. I then managed to wedge lust and allspice trying to fix the bug.
  16239. Sorry about that.  The bug occurs when you try to rename a file to
  16240. a link to itself.  For example, imagine that "a" and "b" refer to
  16241. the same file and you do rename("a", "b").  The server will try to
  16242. lock both handles, which are really the same handle and will
  16243. deadlock.  I'm working on a fix.
  16244.  
  16245. John
  16246.  
  16247.  
  16248. Log-Number: 31818
  16249. From: rab (Robert A. Bruce)
  16250. Subject: ethernet chip loop
  16251. Date: Tue, 03 Dec 91 18:02:25 PST
  16252.  
  16253. The ethernet chip on sassafras is caught in a loop.  The console
  16254. keeps printing this message over and over:
  16255.  
  16256. LE ethernet: Bogus receive interrupt.  Buffer 0xfffc0078 owned by cheip.
  16257. Entering debugger with a Interrupt Trap (16) exception at PC 0xf60b6354
  16258. LE ethernet: Missed a packet.
  16259. LE ethernet: Bogus receive interrupt.  Buffer 0xfffc0078 owned by cheip.
  16260. Entering debugger with a Interrupt Trap (16) exception at PC 0xf60b6354
  16261. LE ethernet: Missed a packet.
  16262. LE ethernet: Bogus receive interrupt.  Buffer 0xfffc0078 owned by cheip.
  16263. Entering debugger with a Interrupt Trap (16) exception at PC 0xf60b6354
  16264. LE ethernet: Missed a packet.
  16265. ...
  16266.  
  16267. It will not respond to L1-D or L1-A, so I am going to do a power-cycle.
  16268.  
  16269.         -bob
  16270.  
  16271.  
  16272.  
  16273. Log-Number: 31819
  16274. Date: Tue, 3 Dec 91 21:26:10 PST
  16275. From: shirriff (Ken Shirriff)
  16276. Subject: Allspice wedged
  16277.  
  16278. Allspice was totally wedged and wouldn't respond to L1-anything.  I did
  16279. a reset and continue; it printed a few lines and then crashed
  16280. uninformatively.  So I rebooted.
  16281.  
  16282.  
  16283. Log-Number: 31825
  16284. Date: Thu, 5 Dec 91 06:19:17 PST
  16285. From: voelker (Geoffrey M. Voelker)
  16286. Subject: allspice
  16287.  
  16288.  
  16289. Just before 6:00 this morning allspice hung with a screenful of
  16290. recv unit reinitializations, and RPCs were hanging to Lust.  I put
  16291. allspice into monitor and then continued it, and it tried to recover.
  16292. In doing so it rebooted and eventually came back up.  Lust seemed
  16293. fine once allspice was.
  16294.  
  16295. -geoff
  16296.  
  16297.  
  16298. Log-Number: 31826
  16299. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  16300. Date: Thu, 5 Dec 1991 11:30:51 PST
  16301. Subject: atof can't handle MAXDOUBLE
  16302.  
  16303.  
  16304. The atof function overflows on the MAXDOUBLE value as defined in values.h
  16305. I got this value off of SunOS where atof seems to work ok.  Ours
  16306. returns Inf.  If your program uses MAXDOUBLE then gcc can't compile
  16307. it because it can't read the number.
  16308.  
  16309. John
  16310.  
  16311.  
  16312. Log-Number: 31902
  16313. Subject: Sprite log munged
  16314. Date: Thu, 05 Dec 91 12:33:14 PST
  16315. From: Mike Kupfer <kupfer>
  16316.  
  16317. The sequence number for the Sprite logger apparently got munched, so
  16318. messages starting from last Friday were getting numbered starting from
  16319. 1.  I've renumbered those messages and reset the logger sequence
  16320. number (there will be a gap between the renumbered messages and new
  16321. messages).
  16322.  
  16323. Action items:
  16324.  
  16325. (1) should we restore the 31 log messages (from 1989) that got
  16326. overwritten?
  16327.  
  16328. (2) the logger should be taught not to overwrite existing files.
  16329.  
  16330. mike
  16331.  
  16332.  
  16333. Log-Number: 31907
  16334. Subject: "wall" hung my machine (whining)
  16335. Date: Thu, 05 Dec 91 18:22:25 PST
  16336. From: Mike Kupfer <kupfer>
  16337.  
  16338. I just had to reboot sage because almost all my RPC channels were
  16339. stuck with hung "device open"s.  Grumble.
  16340.  
  16341. mike
  16342.  
  16343.  
  16344. Log-Number: 31909
  16345. Date: Thu, 5 Dec 91 23:37:20 PST
  16346. From: shirriff (Ken Shirriff)
  16347. Subject: New ipServer
  16348.  
  16349. I've installed a new ipServer that doesn't die if you do a recvfrom with
  16350. a bad address.  The recvfrom ends up getting an IO error.
  16351. (The ipServer has about 20 different exits; I bet we could improve
  16352. its reliability a lot by just removing them all.  I'd think that the ipServer
  16353. shouldn't exit under normal conditions.)
  16354.  
  16355. Ken
  16356.  
  16357.  
  16358. Log-Number: 31910
  16359. Date: Fri, 6 Dec 91 01:58:46 PST
  16360. From: voelker (Geoffrey M. Voelker)
  16361. Subject: allspice
  16362.  
  16363.  
  16364. Allspice went down again around 1:00 AM.  Its console had a stream
  16365. of messages that said: "fscacheGetDirtyFile skipping deleted file
  16366. <0,62843> "58"".  I put it into the monitor and continued it, but
  16367. the messages continued to stream up the console.  So I rebooted it,
  16368. but it "found error in file desciptor map" and initiated a reboot
  16369. itself.  But the disk with /allspiceA was whirring like mad and
  16370. allspice started to report scsi bus busy errors, so I went back
  16371. into monitor and rebooted again.  (I booted sd()sprite to see if
  16372. the situation would improve any by using the old kernel...sorry if
  16373. that was the wrong thing to do.)
  16374.  
  16375. Oh, Lust had entered the debugger when allspice was initially hung.
  16376. I booted it off of its disk.
  16377.  
  16378. -geoff
  16379.  
  16380.  
  16381. Log-Number: 31913
  16382. Date: Fri, 6 Dec 91 12:43:49 PST
  16383. From: soumen@sprite.Berkeley.EDU (SOUMEN CHAKRABARTI)
  16384. Subject: more about arson
  16385.  
  16386.  
  16387. a typical session at arson ...
  16388.  
  16389. [Sprite:arson72] pwd;ls
  16390. /sprite/cmds/pwd: invalid argument.
  16391. /sprite/cmds/ls: invalid argument.
  16392. [Sprite:arson73] cd
  16393. [Sprite:arson74] pwd
  16394. /sprite/cmds/pwd: invalid argument.
  16395. [Sprite:arson75] clear
  16396. /sprite/cmds/clear: invalid argument.
  16397. [Sprite:arson76] !74
  16398. pwd
  16399. /sprite/cmds/pwd: invalid argument.
  16400. [Sprite:arson77] clear
  16401. /sprite/cmds/clear: invalid argument.
  16402. [Sprite:arson78]
  16403.  
  16404. arson, that's what i feel like ...
  16405.  
  16406.  
  16407.  
  16408. Log-Number: 31918
  16409. Date: Fri, 6 Dec 91 13:15:10 PST
  16410. From: pmchen (Peter M. Chen)
  16411. Subject: two day mail delay?
  16412.  
  16413. Check out this mail--it was sent Wed 11am; I received it Fri 9am.
  16414.  
  16415. Pete
  16416.  
  16417. >From bks@okeeffe.CS.Berkeley.EDU Fri Dec  6 08:38:56 1991
  16418. >Received: from okeeffe.CS.Berkeley.EDU by sprite.Berkeley.EDU (5.59/1.29)
  16419. >        id AA855619; Fri, 6 Dec 91 08:38:55 PST
  16420. >Received: by okeeffe.CS.Berkeley.EDU (5.79/1.42)
  16421. >        id AA22313; Wed, 4 Dec 91 10:43:37 -0800
  16422. >Date: Wed, 4 Dec 91 10:43:37 -0800
  16423. >From: bks@okeeffe.CS.Berkeley.EDU (Brian K. Shiratsuki)
  16424. >Message-Id: <9112041843.AA22313@okeeffe.CS.Berkeley.EDU>
  16425. >To: pmchen@sprite.Berkeley.EDU
  16426. >In-Reply-To: Peter M. Chen's message of Tue, 3 Dec 91 22:45:15 PST <9112040645.A
  16427. >A142422@sprite.Berkeley.EDU>
  16428. >Subject: QIC tape I gave you
  16429. >Reply-To: bks@vangogh.CS.Berkeley.EDU
  16430.  
  16431.  
  16432. Log-Number: 31926
  16433. From: mgbaker (Mary Gray Baker)
  16434. Subject: mail undeliverable
  16435. Date: Sun, 08 Dec 91 16:32:59 PST
  16436.  
  16437. I don't know if this is on our end for certain, or if perhaps it could have
  16438. been a problem also on the postgres end, but several pieces of mail that
  16439. Margo tried to send to me from postgres were returned to her as
  16440. undeliverable after 3 days.
  16441.  
  16442. Mary
  16443.  
  16444.  
  16445. Log-Number: 31920
  16446. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  16447. Date: Fri, 6 Dec 1991 14:16:33 PST
  16448. Subject: compat problem
  16449.  
  16450. The "compress" program in /sprite/cmds.$MACHINE.compat has a problem.
  16451. The following output is from a ds5000 running 1.106.
  16452.  
  16453. John
  16454.  
  16455. hijack<jhh 2> touch reallyLongFileName
  16456. hijack<jhh 3> compress !$
  16457. compress reallyLongFileName
  16458. reallyLongFileName: filename too long to tack on .Z
  16459. hijack<jhh 4> which compress
  16460. /sprite/cmds.$MACHINE.compat/compress
  16461. hijack<jhh 5> /sprite/cmds/compress reallyLongFileName
  16462. hijack<jhh 6> 
  16463.  
  16464.  
  16465. Log-Number: 31923
  16466. Date: Fri, 6 Dec 91 15:48:29 PST
  16467. From: mottsmth (Jim Mott-Smith)
  16468. Subject: Interesting X behavior.
  16469.  
  16470.  
  16471. Just for the record (though it probably won't make
  16472. the top-10-to-fix list):
  16473.  
  16474. If I run Sprite's native xdvi and pop the window
  16475. up on a SunOS machine, the window appears and 
  16476. then instantly disappears leaving a cryptic
  16477. error message. On occasion I can actually press a
  16478. button or two before the image vanishes.
  16479. (If I run the sww version of xdvi this does not happen.)
  16480.  
  16481. Typical error messages:
  16482.  
  16483.  X Error of failed request:  BadLength (poly request too
  16484.  large or internal Xlib length error)
  16485.   Major opcode of failed request:  96 (X_RecolorCursor)
  16486.   Minor opcode of failed request:  0
  16487.   Resource id in failed request:  0x800030
  16488.   Serial number of failed request:  1039
  16489.   Current serial number in output stream:  1229
  16490.  
  16491. X Error of failed request:  BadGC (invalid GC parameter)
  16492.   Major opcode of failed request:  72 (X_PutImage)
  16493.   Minor opcode of failed request:  0
  16494.   Resource id in failed request:  0x0
  16495.   Serial number of failed request:  2110
  16496.   Current serial number in output stream:  2190
  16497.  
  16498.  
  16499. -- Jim M-S
  16500.  
  16501.  
  16502. Log-Number: 31924
  16503. Subject: info on 26 Nov. allspice hang
  16504. Date: Fri, 06 Dec 91 18:57:58 PST
  16505. From: Mike Kupfer <kupfer>
  16506.  
  16507. I poked around in the core file that Bob made from Allspice on the
  16508. 26th.  (The core file is /home/ginger/cores/allspice.hung.Nov.26, and
  16509. the kernel is 1.106.)  I built up a short table that seems to show
  16510. what was going on (see below).
  16511.  
  16512. Basically, lots of processes got stuck waiting for the fsioStream.c
  16513. monitor lock (lock 0xf60f4840).  This was held by a process that was
  16514. waiting for the lock on a cache block.  The holder of the cache block
  16515. lock was waiting for an I/O operation on the block to complete.
  16516.  
  16517. Some notes:
  16518.  
  16519. (1) the process holding the fsioStream.c monitor lock (process 2a) was
  16520. doing an open of /dev/null.  If I can trust the attributes that I
  16521. found while poking around in its stack, the permissions on /dev/null
  16522. at this time were already screwed up (0640).
  16523.  
  16524. (2) Mayhem was rebooted the next morning.  Is it possible that it
  16525. hung and then caused the operation on the cache block to hang?
  16526.  
  16527. mike
  16528. -----
  16529.  
  16530. pcb    waiting for    comments
  16531. ---    -----        -----
  16532. 0    
  16533. 1    0xf60f4840 (lock) (rpc server)
  16534. 2    0xf6448fc4 (cond) (rpc server) (reading swap file(?) for
  16535.             mayhem; waiting for busy block to complete I/O
  16536.             operation)
  16537. 3            (Rpc_Daemon)
  16538. 4
  16539. 5
  16540. 6            (idle server proc)
  16541. 7            (idle server proc)
  16542. 8            (idle server proc)
  16543. 9            (idle server proc)
  16544. a            (idle server proc)
  16545. b            (idle server proc)
  16546. c            (idle server proc)
  16547. d    0xf61a2a40 (cond) (Recov Proc)
  16548. e    0xf61c9f20 (cond) (user Proc_Wait)
  16549. f    0xf60f4840 (lock) (rpc server) (waiting for fsioStream monitor lock,
  16550.             held by process 2a)
  16551. 10    0xf60f4840 (lock) (rpc server) (waiting for fsioStream monitor lock)
  16552. 11    0xf60f4840 (lock) (rpc server) (waiting for fsioStream monitor lock)
  16553. 12    0xf6196458 (cond) (sig pause)
  16554. 13    0xf60f4840 (lock) (rpc server) (waiting for fsioStream monitor lock)
  16555. 2a    0xf6be53d0 (lock) (rpc server) (opening /dev/null) (waiting for cache
  16556.             block lock, held by process 2)
  16557.  
  16558.  
  16559.  
  16560. Log-Number: 31927
  16561. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  16562. Date: Mon, 9 Dec 1991 10:56:55 PST
  16563. Subject: locked cache block
  16564.  
  16565.  
  16566. Allspice currently has a block in its cache that is locked due to
  16567. IO but the IO never completes (I let it sit over night).  The
  16568. blockPtr flags don't indicate that there is an IO in progress, but
  16569. a process is still waiting on the ioDone condition.  The block
  16570. happens to be in a swap file for loiter, so loiter wedged up.  I
  16571. moved all of its swap files to /lost+found so loiter would reboot,
  16572. but there are still 5 stuck rpc servers on allspice.  It's probably
  16573. not worth rebooting immediately, but weren't we going to reboot it
  16574. to bring up the 1.106 kernel anyway?
  16575.  
  16576. The file was in /swap1, which is an LFS.  We've seen these "lost
  16577. io" problems before on RAID-I but attributed them to the raid driver
  16578. or hardware.  The stuck process on allspice is entry 0x21 in the
  16579. table.
  16580.  
  16581. John
  16582.  
  16583.  
  16584. Log-Number: 31941
  16585. Date: Wed, 11 Dec 91 17:11:21 PST
  16586. From: shirriff (Ken Shirriff)
  16587. Subject: Re: bugs in compat version of grn
  16588.  
  16589. The problem with the compat version of grn was that grn didn't have
  16590. a declaration of "double atof()", so the compiler messed up the conversion.
  16591. I added "#include <stdlib.h> and now it works.  I have no idea why grn ever
  16592. worked, since a recompiled non-compat version didn't work either; our
  16593. include files must have changed around recently.
  16594.  
  16595. Ken
  16596.  
  16597.  
  16598. Log-Number: 31930
  16599. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  16600. Date: Tue, 10 Dec 1991 10:42:25 PST
  16601. Subject: allspice consistency problem
  16602.  
  16603.  
  16604. When I came in this morning allspice was barely alive.  Its process table
  16605. was full of sendmail processes.  I took a core (allspiceOutOfProcesses)
  16606. and discovered that all the sendmails are waiting for consistency to
  16607. finish so that they may start consistency callbacks themselves. 
  16608. Unfortunately it doesn't look like they ever make progress.
  16609.  
  16610. Begin whining
  16611.  
  16612. It would be nice if someone would fix the kgdb/tty stuff so it would be
  16613. usable if I'm logged into another machine.  The dropping of characters
  16614. is really annoying.  Also, sometimes if I type ^C because I don't want
  16615. to see the rest of a listing it drops be back to the shell, leaving my
  16616. kgdb process detached.  This is annoying also.  Perhaps ^C isn't
  16617. the right thing to type?  And last but not least, it would be nice
  16618. if the Fsconsist_Info structure contained an indication of which process
  16619. is currently doing the consistency stuff so one could figure out why
  16620. it isn't making progress.  Searching through 128 processes isn't much
  16621. fun.
  16622.  
  16623. John
  16624.  
  16625.  
  16626. Log-Number: 31931
  16627. Date: Tue, 10 Dec 91 12:35:07 PST
  16628. From: pmchen (Peter M. Chen)
  16629. Subject: allspice disk full messages
  16630.  
  16631. I'm getting lots of these messages:
  16632.  
  16633. 12/10/91 12:33:16 allspice (14) RmtFile "/sprite/spool/mail/randy" <10,2227> Write-back failed: out of disk space<40008>
  16634.  
  16635. but df reports lots of room on /
  16636.  
  16637. mustard% df /sprite/spool/mail/randy
  16638. Prefix               Server         KBytes       Used      Avail    % Used
  16639. /                    allspice       495968     435951      10420      97%
  16640.  
  16641. And /sprite/spool/mail/randy is not that big
  16642.  
  16643. ls -l /sprite/spool/mail/randy
  16644. -rw-------  1 randy      239499 Dec 10 12:31 /sprite/spool/mail/randy
  16645.  
  16646. I did just send mail to the raid alias (which includes randy).
  16647.  
  16648. This was on mustard, ds5000, running 1.106.
  16649.  
  16650. Pete
  16651.  
  16652.  
  16653. Log-Number: 31934
  16654. Date: Wed, 11 Dec 91 12:04:22 PST
  16655. From: mendel (Mendel Rosenblum)
  16656. Subject: Re: new ds3100 c compiler
  16657.  
  16658.  
  16659. While compiling the lfs kernel module on loiter:
  16660.  
  16661. --- ds3100.md/lfsSegUsage.o ---
  16662. cc  -g3 -O -DKERNEL -Dds3100 -Dsprite -Uultrix   -Ids3100.md -I. -I/sprite/src/kernel/Include/ds3100.md -I/sprite/src/kernel/Include -I/sprite/lib/include/ds3100.md -I/sprite/lib/include -c lfsSegUsage.c -o ds3100.md/lfsSegUsage.o
  16663. --- ds3100.md/lfs.o ---
  16664. rm -f ds3100.md/lfs.o
  16665. ld -r -L/sprite/lib/ds3100.md ds3100.md/lfsBlockIO.o ds3100.md/lfsCacheBackend.o ds3100.md/lfsDesc.o ds3100.md/lfsDescMap.o ds3100.md/lfsDirOpLog.o ds3100.md/lfsFileIndex.o ds3100.md/lfsFileLayout.o ds3100.md/lfsIo.o ds3100.md/lfsLoad.o ds3100.md/lfsMain.o ds3100.md/lfsMem.o ds3100.md/lfsSeg.o ds3100.md/lfsSegUsage.o ds3100.md/lfsStableMem.o -o ds3100.md/lfs.o
  16666. ld:
  16667. ds3100.md/lfsBlockIO.o: version stamp: 2.10, does not match ld's: 1.31
  16668. ds3100.md/lfsCacheBackend.o: version stamp: 2.10, does not match ld's: 1.31
  16669. ds3100.md/lfsDesc.o: version stamp: 2.10, does not match ld's: 1.31
  16670. ds3100.md/lfsDescMap.o: version stamp: 2.10, does not match ld's: 1.31
  16671. ds3100.md/lfsDirOpLog.o: version stamp: 2.10, does not match ld's: 1.31
  16672. ds3100.md/lfsFileIndex.o: version stamp: 2.10, does not match ld's: 1.31
  16673. ds3100.md/lfsFileLayout.o: version stamp: 2.10, does not match ld's: 1.31
  16674. ds3100.md/lfsIo.o: version stamp: 2.10, does not match ld's: 1.31
  16675. ds3100.md/lfsLoad.o: version stamp: 2.10, does not match ld's: 1.31
  16676. ds3100.md/lfsMain.o: version stamp: 2.10, does not match ld's: 1.31
  16677. ds3100.md/lfsMem.o: version stamp: 2.10, does not match ld's: 1.31
  16678. ds3100.md/lfsSeg.o: version stamp: 2.10, does not match ld's: 1.31
  16679. ds3100.md/lfsSegUsage.o: version stamp: 2.10, does not match ld's: 1.31
  16680. ds3100.md/lfsStableMem.o: version stamp: 2.10, does not match ld's: 1.31
  16681. loiter% 
  16682.  
  16683.  
  16684.     Mendel
  16685.  
  16686.  
  16687. Log-Number: 31935
  16688. Subject: VmListInsert: Inserting element twice
  16689. Date: Wed, 11 Dec 91 12:59:50 PST
  16690. From: Mike Kupfer <kupfer>
  16691.  
  16692. Coons crashed with this message when it tried to evict a bunch of
  16693. processes.  It was running a private kernel, but the only difference
  16694. between it and 1.106 is some additional printf's.
  16695.  
  16696. I poked around with kgdb, but wasn't able to get much
  16697. information because of the problem with local variables being
  16698. displayed with bogus values.
  16699.  
  16700. The stack trace is below.  The one thing I noticed is that in
  16701. VmPageFreeInt, the call to PutOnFreeList is in the first branch of the
  16702. "if"--that is, the page belongs to the kernel.
  16703.  
  16704. mike
  16705. --
  16706. #0  panic (va_alist=-2146252404) (sysPrintf.c line 220)
  16707. 220         Dev_SyslogDebug(FALSE);
  16708. #1  0x800eec84 in VmListInsert (itemPtr=(struct List_Links *) 0x8023c978, destPtr=(struct List_Links *) 0x8023c978) (vmList.c line 53)
  16709. #2  0x800f0790 in PutOnFreeList (corePtr=(struct VmCore *) 0x80195e80) (vmPage.c line 459)
  16710. #3  0x800f1758 in VmPageFreeInt (pfNum=3357785016) (vmPage.c line 1297)
  16711. #4  0x800eff2c in PrepareSegment (segPtr=(struct Vm_Segment *) 0x8023bdfc) (vmMigrate.c line 598)
  16712. #5  0x800ef558 in Vm_InitiateMigration (procPtr=(struct Proc_ControlBlock *) 0xc0311594, hostID=88, infoPtr=(struct .F77 *) 0xc823bcf8) (vmMigrate.c line 106)
  16713. #6  0x800c21ec in Proc_MigrateTrap (procPtr=(struct Proc_ControlBlock *) 0xc0311594) (procMigrate.c line 544)
  16714. #7  0x800df0e4 in Sig_Handle (procPtr=(struct Proc_ControlBlock *)
  16715. 0xc0311594, sigStackPtr=(struct .F59 *) 0xc823be2c, pcPtr=(char **) 0xc823be28) (signals.c line 1230)
  16716. #8  0x80037b88 in MachUserReturn (procPtr=(struct Proc_ControlBlock *) 0xc0311594) (ds5000.md/machCode.c line 1540)
  16717. #9  0x80035c0c in MachSysCall () (ds5000.md/machAsm.s line 1679)
  16718.  
  16719.  
  16720.  
  16721. Log-Number: 31942
  16722. Subject: new mips cc doesn't understand -m
  16723. Date: Wed, 11 Dec 91 18:42:50 PST
  16724. From: Mike Kupfer <kupfer>
  16725.  
  16726. The 1.31 cc understood (or ignored) "-mds5000", which my top-level
  16727. kernel Makefile was putting in.  It would be nice if the new cc would
  16728. also accept -m<machine>, but I suppose it's not a big deal.
  16729.  
  16730. mike
  16731.  
  16732.  
  16733. Log-Number: 31943
  16734. Subject: lust deadlock
  16735. Date: Wed, 11 Dec 91 19:16:28 PST
  16736. From: Mike Kupfer <kupfer>
  16737.  
  16738. Lust crashed with a deadlock in the net module.  It was running the
  16739. 1.106 kernel, and the console message said
  16740.  
  16741.   holder PC 800ae7e0, current PC 800ac9b8
  16742.  
  16743. The first address is in NetLEOutput, the second one is in NetLERestart.
  16744.  
  16745. mike
  16746.  
  16747.  
  16748. Log-Number: 31951
  16749. Date: Fri, 13 Dec 91 16:41:40 PST
  16750. From: pmchen (Peter M. Chen)
  16751. Subject: segmentation fault on ds5000
  16752.  
  16753. On mustard (ds5000) running 1.106, the following program gives a
  16754. segmentation violation.  Apparently this has something to do with memory
  16755. allocation, since if I change the definition of MAXRESULTNUM to 9000, it works
  16756. fine.  This happened on clove also.  But, on jaywalk (sun4), it works fine.
  16757.  
  16758. sizeof(WLRESULT) = 232
  16759. sizeof(WLSIMPLERESULT) = 24
  16760.  
  16761. This is 2.5 MB of memory.
  16762.  
  16763. Pete
  16764.  
  16765. -------------------------------------------------------
  16766. #include <stdio.h>
  16767. typedef struct {
  16768.     double throughput; /* throughput in MB/s */
  16769.     double avResponseTime; /* average response time in ms */
  16770.     double cpuThink; /* cpu think time in ms */
  16771. } WLPERF;
  16772.  
  16773. typedef struct {
  16774.     char *dirName; /* what directory the test files go in */
  16775.     unsigned int uniqueBytes; /* total number of unique bytes touched in this
  16776.                                     run */
  16777.     double reUse; /* how many times each byte gets accessed */
  16778.     double hitDepth; /* average LRU depth (fraction of uniqueBytes) */
  16779.     double readProb; /* fraction of reads */
  16780.     unsigned int sizeMean; /* average request size in bytes */
  16781.     double sizeCVar; /* coefficient of variation of request size */
  16782.     int processNum; /* how many processes */
  16783.     double sharing; /* how much sharing there is */
  16784.     double cpuThink; /* cpu think time between I/O's (ms) */
  16785.     double seqProb; /* probability of sequentiality */
  16786.     unsigned int alignQuanta; /* quanta of alignment for most requests */
  16787.     double alignProb; /* probability that a request is aligned */
  16788.     int seed; /* random seed */
  16789. } WLPARAM;
  16790.  
  16791. typedef struct {
  16792.     WLPARAM param;  /* parameters achieved */
  16793.     WLPARAM target; /* parameters fed to specWl to shoot for */
  16794.     WLPERF perf;    /* performance achieved */
  16795. } WLRESULT;
  16796.  
  16797. #define MAXRESULTNUM 10000 /* maximum number of results we can get */
  16798.  
  16799. typedef struct {
  16800.     double paramValue;
  16801.     double performance;
  16802.     char *comment;
  16803. } WLSIMPLERESULT;
  16804.  
  16805. main()
  16806. {
  16807.     WLRESULT previousResult[MAXRESULTNUM];
  16808.     WLSIMPLERESULT simplePreviousResult[MAXRESULTNUM];
  16809.  
  16810.     printf("hi\n");
  16811. }
  16812.  
  16813.  
  16814. Log-Number: 31952
  16815. Date: Fri, 13 Dec 91 17:21:15 PST
  16816. From: mendel (Mendel Rosenblum)
  16817. Subject: Re: segmentation fault on ds5000
  16818.  
  16819. The problem is in the Sprite kernel or in your program.   The Sprite kernel
  16820. limits the growth of the stack segment to 2 megabytes at a time on
  16821. the decStations and 8 megabytes at a time of the sparcStations.  Most
  16822. program don't put so much on the stack.  Declaring your variables to be
  16823. static will get round this problem (if the routine is not recusive).
  16824.  
  16825. The reason for the stack limit is because the stack (unlike the heap) is
  16826. grown automatically when you reference a variable outside its range. The
  16827. stack starts at the top of memory and grows down towards the heap.  Like:
  16828.  
  16829.  
  16830.         +-------------+
  16831.     |  Stack      |
  16832.         |    |          |
  16833.         |    V        |
  16834.     +-------------+
  16835.     |          |
  16836.     |          |
  16837.     |          |
  16838.     +-------------+
  16839.         |    ^          |
  16840.         |    |          |
  16841.     |   Heap      |
  16842.     +-------------+
  16843.  
  16844. The questions becomes what happens if a references occurs one byte passed the
  16845. end of the heap?   Is this someone addressing off the end of the heap or
  16846. is it the stack growing a large amount?  The answer in Sprite (and Unix) is
  16847. to limit the growth of the stack.
  16848.  
  16849. The reason it is different on the sun4 and ds5000 is that someone had a program
  16850. that used more than 2 and less than 8 so they changed it.
  16851.  
  16852.     Mendel 
  16853.  
  16854.  
  16855. Log-Number: 31953
  16856. Subject: the second reason for pmake hangs
  16857. Date: Mon, 16 Dec 91 15:02:45 PST
  16858. From: Mike Kupfer <kupfer>
  16859.  
  16860.  
  16861. When pmake wants to re-export a job, it runs through the PCB table to
  16862. find the processes that need restarting.  Unfortunately,
  16863. Proc_GetPCBInfo only returns information about local processes.  So if
  16864. pmake itself is migrated, it won't see children that are running on
  16865. another machine (or migrated home).  There are an ifdef and comments
  16866. in Proc_GetPCBInfo that suggest that this behavior is deliberate. 
  16867. Does anyone know the rationale?
  16868.  
  16869. Assuming that Proc_GetPCBInfo's behavior is correct, the answer is for
  16870. pmake to query the home machine, not the machine it happens to be
  16871. running on.
  16872.  
  16873. mike
  16874.  
  16875.  
  16876. Log-Number: 31954
  16877. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  16878. Date: Mon, 16 Dec 1991 23:01:24 PST
  16879. Subject: gdb and new mips cc
  16880.  
  16881. When I run Kgdb on the ds5000.1.107 kernel I get lots of the following
  16882. message:
  16883.  
  16884. [Unimplemented kind of type: 26]
  16885.  
  16886.  
  16887. I assume it's related to the new cc.  Kgdb seemed to work ok after all
  16888. the complaining, but I'm sure something is broken.
  16889.  
  16890. John
  16891.  
  16892.  
  16893. Log-Number: 31955
  16894. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  16895. Date: Mon, 16 Dec 1991 23:04:25 PST
  16896. Subject: hijack crash
  16897.  
  16898.  
  16899. Hijack ran out of memory while running the dumps (tar.gnu) and xmh. 
  16900. I had to leave so I didn't look at it too long.  Here are some
  16901. interesting numbers from the memory module.
  16902.  
  16903. John
  16904.  
  16905. Total allocs = 4886610, frees = 4863301
  16906.  
  16907. Small object allocator:
  16908.     Size     Total    Allocs    In Use
  16909.       24      1980   1633682       390
  16910.       32      1084    353007       699
  16911.       40      7564   1393474      7535
  16912.       48      6236    371588      5269
  16913.       56      3020    282720      2082
  16914.       64      1628    105663       719
  16915.       72      1244    220015       138
  16916.       80      2908     25885      1829
  16917.       88      1788    183777       437
  16918.       96       268      2522        45
  16919.      104       204      1033        62
  16920.      112        28        97         3
  16921.      120        12     27945         8
  16922.      128        12        50         2
  16923.      136        12        46         4
  16924.      144        12       173         3
  16925.      152         4        89         0
  16926.      160        12        64         7
  16927.      168         4        35         2
  16928.      176        28        44        15
  16929.      184         4        94         0
  16930.      192         4        32         1
  16931.      200        12        13         2
  16932.      208         4         4         0
  16933.      216        92       172        83
  16934.      224         4       605         0
  16935.      232        76       683        70
  16936.      240         4        16         0
  16937.      248         4         4         0
  16938.      256         4        11         0
  16939.      264         4         5         1
  16940.      280        76      2105        68
  16941.      336      3756    143600      3712
  16942.     4112        12      1491         3
  16943.    Total     32104   4750744     23189
  16944. Bytes allocated = 2881312, freed = 606928
  16945.  
  16946. Large object allocator:
  16947.    Total bytes managed: 1571168
  16948.    Bytes in use:        609312
  16949. Orig. Size       Num      Free    In Use
  16950.       1824         2         0         2
  16951.        208         2         2         0
  16952.    1048592         1         0         1
  16953.        328         3         1         2
  16954.        272        77         4        73
  16955.        256         1         1         0
  16956.        400         1         0         1
  16957.        520         1         1         0
  16958.        528         3         0         3
  16959.       1016         2         0         2
  16960.        216         1         1         0
  16961.       1536        20         4        16
  16962.        496         1         1         0
  16963.        552         2         0         2
  16964.         64         1         1         0
  16965.        344         1         1         0
  16966.        568         2         1         1
  16967.        864         1         1         0
  16968.         56         1         1         0
  16969.        224         1         1         0
  16970.        240         6         6         0
  16971.        512         8         8         0
  16972.        680         1         1         0
  16973.        760         1         0         1
  16974.         48         1         1         0
  16975.        944         1         1         0
  16976.        544         1         1         0
  16977.        416         1         1         0
  16978.        144         1         1         0
  16979.        656         1         1         0
  16980.        288         1         1         0
  16981.       2032         1         1         0
  16982.        560         2         1         1
  16983.       1208         1         1         0
  16984.        776         1         1         0
  16985.       2064         1         0         1
  16986.       1736         1         1         0
  16987.        304         1         1         0
  16988.        232         1         1         0
  16989.        728         2         1         1
  16990.       2400         1         1         0
  16991.        408         1         0         1
  16992.         16         1         1         0
  16993.        392         1         0         1
  16994.        120         1         1         0
  16995.        296         2         0         2
  16996.       1808         1         0         1
  16997.       4336         1         1         0
  16998.       6024         1         1         0
  16999.       8128         1         1         0
  17000.       4064         1         1         0
  17001.       2352         1         1         0
  17002.       4968         2         2         0
  17003.       2304         1         1         0
  17004.       5872         1         1         0
  17005.        368         1         0         1
  17006.       4368         1         1         0
  17007.      49168         2         0         2
  17008.       6040         1         1         0
  17009.        360         1         0         1
  17010.       7392         1         1         0
  17011.      16384         1         1         0
  17012.      41208         1         1         0
  17013.      23256         1         1         0
  17014.      44200         1         1         0
  17015.      20808         1         1         0
  17016.      65552         1         1         0
  17017.       1296         1         0         1
  17018.        504         1         1         0
  17019.        960         1         1         0
  17020.       1032         1         1         0
  17021.       2104         3         2         1
  17022.        440         1         0         1
  17023.        936         1         1         0
  17024.         72         1         1         0
  17025.       1048         2         2         0
  17026.       5616         1         1         0
  17027.        576         1         0         1
  17028.      36328         1         1         0
  17029.  
  17030.  
  17031. Log-Number: 31956
  17032. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  17033. Date: Tue, 17 Dec 1991 17:20:57 PST
  17034. Subject: new pscomm
  17035.  
  17036.  
  17037. I've installed a new pscomm that fixes a bug parsing status messages
  17038. from the printer.  If the job changes its name then the printer
  17039. sends back the job name at the beginning of the status message.
  17040. Pscomm was a little too simplistic in its parsing of status messages
  17041. so it would get confused.  Eventually it would exit, causing another
  17042. one to be started which would have the same problem.  Most jobs
  17043. don't change the jobname, so this bug never came up before. I tried
  17044. to print something from PageMaker, and it just sat there forever.
  17045.  
  17046. John
  17047.  
  17048.  
  17049. Log-Number: 31959
  17050. Date: Wed, 18 Dec 91 13:58:51 PST
  17051. From: mottsmth (Jim Mott-Smith)
  17052. Subject: compatibility problem with dvi2x
  17053.  
  17054.  
  17055. /usr/sww/bin/dvi2x runs on Sabotage but
  17056. segment faults on Covet.
  17057.  
  17058. -- Jim M-S
  17059.  
  17060.  
  17061. Log-Number: 31962
  17062. Date: Thu, 19 Dec 91 13:48:27 PST
  17063. From: pmchen (Peter M. Chen)
  17064. Subject: compiling with profiling
  17065.  
  17066. ld complains about a malformatted header of archive member in the C profiling
  17067. library.  This was on sabotage, sun4/75 running 1.107.
  17068.  
  17069. Pete
  17070.  
  17071. In directory ~pmchen/bench/specWl
  17072.  
  17073. cc -g  -pg  -o specWl obj/addressTree.o obj/adjustTarget.o obj/commDoWl.o obj/createGarbage.o obj/fileSize.o obj/getLoc.o obj/getParamSpecWl.o obj/lruTree.o obj/main.o obj/mathdist.o obj/option.o obj/optionInit.o obj/param.o obj/sizefunctions.o obj/specWl.o obj/specWlIO.o obj/tree.o  -lm
  17074. ld: malformatted header of archive member in /sprite/lib/sun4.md/libc_p.a
  17075.  
  17076.  
  17077. Log-Number: 31963
  17078. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  17079. Date: Thu, 19 Dec 1991 15:16:30 PST
  17080. Subject: mips gdb complaining
  17081.  
  17082.  
  17083. When gdb or kgdb is run on things compiled with the new cc you'll
  17084. get lots of messages that say:
  17085.  
  17086. [Unimplemented kind of type: 26]
  17087.  
  17088. These are caused by void types in the symbol table.  The new compiler
  17089. generates them and the current gdb/kgdb doesn't understand them.
  17090. I think they work ok, they just complain a bit.  We should probably
  17091. roll forward to gdb 4.X.
  17092.  
  17093. John
  17094.  
  17095.  
  17096. Log-Number: 31964
  17097. From: rab (Robert A. Bruce)
  17098. Subject: Re: mips gdb complaining 
  17099. Date: Thu, 19 Dec 91 15:37:48 PST
  17100.  
  17101. If there is no other reason to roll forward to the next gdb,
  17102. it is a simple hack to make the current gdb ignore this
  17103. particular symbol type.
  17104.  
  17105.         -bob
  17106.  
  17107.  
  17108.  
  17109. Log-Number: 31967
  17110. Date: Thu, 19 Dec 91 17:09:54 PST
  17111. From: shirriff (Ken Shirriff)
  17112. Subject: Re: compat problem with compress
  17113.  
  17114. I found the problem with compatibility compress not accepting long names.
  17115. Apparently compatibility compress was compiled without the -DBSD4_2 flag
  17116. which is in the local.mk; this flag allows long filenames.
  17117.  
  17118. Ken
  17119.  
  17120.  
  17121. Log-Number: 31972
  17122. Date: Thu, 19 Dec 91 23:24:45 PST
  17123. From: shirriff (Ken Shirriff)
  17124. Subject: Re: arson out of processes
  17125.  
  17126. The reason arson said "invalid argument" when it ran out of processes is
  17127. that the vm module ran out of segments and returned VM_NO_SEGMENTS.
  17128. In its infinite wisdom, Compat_MapCode converted this to "invalid argument".
  17129. I've changed it so it returns "not enough memory" and installed a new csh.
  17130.  
  17131. Ken
  17132.  
  17133.  
  17134. Log-Number: 31974
  17135. Date: Fri, 20 Dec 91 20:20:18 PST
  17136. From: voelker (Geoffrey M. Voelker)
  17137. Subject: allspice crash
  17138.  
  17139.  
  17140. Allspice went into an LFS cleaning frenzy again, this time on /local.
  17141. The segment numbers were not diverging, but neither were they
  17142. converging.
  17143.  
  17144. I also made an attempt at cleaning allspice's console.  It was 
  17145. quite dirty.
  17146.  
  17147. (I'm sorry about not core dumping allspice;  I still have yet to
  17148. make the effort to get an account on ginger)
  17149.  
  17150. -geoff
  17151.  
  17152.  
  17153. Log-Number: 31975
  17154. Date: Fri, 20 Dec 91 21:30:44 PST
  17155. From: voelker@miro.Berkeley.EDU (Geoffrey Voelker)
  17156. Subject: allspice II
  17157.  
  17158.  
  17159. >a sample of its output. The more info you give us the more
  17160. >likely we'll be able to find the bug.
  17161.  
  17162. Ooops.  I should have included this in the first message.  Allspice's
  17163. console was covered with something like:
  17164.  
  17165. /local: Cleaning started. Cleaned 4809 segments in 4410 segments.
  17166. (something something)  -- deficit 48 segments
  17167.  
  17168. The incremenet of the number of segments it cleaned was also the
  17169. increment on the number of segments it wrote out.
  17170.  
  17171. -geoff
  17172.  
  17173.  
  17174. Log-Number: 31976
  17175. Date: Mon, 23 Dec 91 15:02:13 PST
  17176. From: ouster (John Ousterhout)
  17177. Subject: Allspice reboot
  17178.  
  17179. I'm responsible for Allspice's reboot this afternoon.  Sendmail was
  17180. hung up, and when I went up to restart the IPserver I discovered that
  17181. Allspice was in an infinite cleaning loop on /local (it seemed to
  17182. continually run a deficit of 44 segments).  I just rebooted.
  17183.  
  17184.                     -John-
  17185.  
  17186.  
  17187. Log-Number: 31977
  17188. Date: Tue, 24 Dec 91 08:39:18 PST
  17189. From: ouster (John Ousterhout)
  17190. Subject: Allspice crash: /local corrupted
  17191.  
  17192. Allspice crashed this morning with the following error message:
  17193.  
  17194. Bad segment summary magic in segment 554
  17195. Corrupted segment summary block
  17196.  
  17197. In my haste to get Allspice back running again I forgot to take a
  17198. core dump.  I have a feeling this bug may repeat every time Allspice
  17199. tries to clean /local, in which case there will be more opportunities
  17200. for core dumps.  If it does repeat, I'd suggest removing /local from
  17201. the mount list until consistency can be restored.
  17202.  
  17203.                     -John-
  17204.  
  17205.  
  17206. Log-Number: 31979
  17207. Subject: "dup2: invalid argument" still a problem
  17208. Date: Mon, 30 Dec 91 13:05:37 PST
  17209. From: Mike Kupfer <kupfer>
  17210.  
  17211. I'm still getting "dup2: invalid argument" and no wall message when I
  17212. invoke shutdown.  This happens even if I allow a long time before
  17213. shutdown (e.g., "shutdown -S 300").  It only seems to be happening
  17214. with /sprite/cmds.compat/shutdown.
  17215.  
  17216. mike
  17217.  
  17218.  
  17219. Log-Number: 31980
  17220. Subject: R5 bell doesn't work on sun4
  17221. Date: Mon, 30 Dec 91 15:33:08 PST
  17222. From: Mike Kupfer <kupfer>
  17223.  
  17224. The bell doesn't seem to work with X11 R5 running on sun4's.  It works
  17225. okay on sun3's and DECstations.
  17226.  
  17227. The currently installed R5 Xsun was built without debugging symbols,
  17228. so the first thing to do is rebuild Xsun with -g turned on.
  17229.  
  17230. mike
  17231.  
  17232.  
  17233.